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世 千 二 
朋 噩 
FOREWORD 


随 着 模式 识别 技术 的 迅猛 发 展 ,目前 该 技术 已 经 成 为 当代 高 科技 研究 的 重要 
领域 之 一 ,不 仅 取得 了 丰富 的 理论 成 果 , 而 且 其 应 用 范围 越 来 越 广泛 ,几乎 遍及 各 
个 学 科 领 域 ,如 人 工 智能 .机 器 人 、 系 统 控制 .遥感 数据 分 析 . 生 物 医 学 工程 .军事 目 
标识 别 等 。 由 于 其 在 国民 经 济 、 国 防 建设 .社会 发 展 的 各 个 方面 得 到 了 广泛 应 用 ， 
因而 越 来 越 多 的 人 认识 到 模式 识别 技术 的 重要 性 。 

本 书 以 实用 性 为 宗旨 ,以 对 酒 瓶 颜色 的 分 类 设计 为 主 ,将 理论 与 实践 相 结合 ， 
介绍 了 各 种 相关 分 类 器 设计 。 

第 1 章 介 绍 模式 识别 的 概念 、 模 式 识别 的 方法 及 其 应 用 。 

第 2 章 讨 论 贝 叶 斯 分 类 器 的 设计 。 首 先 介绍 贝 叶 斯 决策 的 概念 ,让 读者 对 
贝 叶 斯 理论 有 所 了 解 ,然后 介绍 基于 最 小 错误 率 和 最 小 风险 的 贝 叶 斯 分 类 器 的 
设计 ,将 理论 应 用 到 实践 ,让 读者 真正 学 会 运用 该 算法 解决 实际 问题 。 

第 3 章 讨 论 判 别 函 数 分 类 器 的 设计 。 判 别 函 数 包括 线性 判别 函数 和 非 线性 判 
别 函 数 , 本 章 首 先 介 绍 判 别 函数 的 相关 概念 ,然后 介绍 线性 判别 函数 LMSE 和 
Fisher 分 类 器 的 设计 及 非 线性 判别 函数 SVM 分 类 器 的 设计 。 

第 4 章 讨 论 聚 类 分 析 。 聚 类 分 析 作 为 最 基础 的 分 类 方法 ,涵盖 了 大 量 经 典 的 
聚 类 算法 及 衍生 出 来 的 改进 算法 。 本 章 首先 介绍 相关 理论 知识 ,然后 依次 介绍 K 
均值 聚 类 、K 均值 改进 算法 .KNN 聚 类 、PAM 聚 类 、 层 次 聚 类 及 ISODATA 分 类 器 
设计 。 

第 5 章 讨论 模糊 聚 类 分 析 。 首 先 介 绍 模糊 逻辑 的 发 展 、 模 糊 数学 理论 .模糊 逻 
辑 与 模糊 推理 等 一 整套 模糊 控制 理论 ,然后 介绍 模糊 分 类 器 ,模糊 C 均值 分 类 器 、 
模糊 ISODATA 分 类 器 及 模糊 神经 网 络 分 类 器 的 设计 。 

第 6 章 讨 论 神经 网 络 聚 类 设计 。 首 先 介绍 神经 网 络 的 概念 及 其 模型 等 理论 知 
识 , 然 后 介绍 基于 BP 网 络 、Hopfield 网 络 .RBF 网 络 .GRNN、 小 波 神经 网 络 、 自 组 织 
竞争 网 络 .SOM 网 络 .LVQ 网 络 .PNN、CPN 的 分 类 器 设计 。 

第 7 章 讨论 模拟 退火 算法 聚 类 设计 。 首 先 介绍 模拟 退火 算法 的 基本 原理 、 基 
本 过 程 , 然 后 介绍 其 分 类 器 的 设计 。 

第 8 章 介 绍 遗 传 算法 聚 类 设计 ,包括 遗传 算法 原理 及 遗传 算法 分 类 器 设计 的 


模式 识别 与 人 工 智能 (基于 MATLAB) 
详细 过 程 。 

第 9 章 介绍 蚁 群 算法 聚 类 设计 ,包括 蚁 群 算法 的 基本 原理 、 基 于 蚁 群 基本 算法 的 分 类 器 
设计 和 改进 的 蚁 群 算法 MMAS 的 分 类 器 设计 。 

第 10 章 介 绍 粒子 群 算法 聚 类 设计 ,包括 粒子 群 算法 的 运算 过 程 .进化 模型 .原理 及 其 模 
式 分 类 的 设计 过 程 。 

本 书 没有 像 大 多 数 模 式 识 别 的 书 那样 讲解 烦琐 的 理论 ,而 是 简明 扼要 地 介绍 每 一 种 算 
法 的 核心 ,并 通过 大 量 的 实例 介绍 模式 识别 知识 。 书 中 针对 每 一 种 模式 识别 算法 ,按理 论 基 
础 和 实例 操作 两 部 分 进行 介绍 。 在 读者 掌握 基础 理论 后 ,通过 实例 可 以 了 解 算法 的 实现 思 
路 和 方法 ; 进一步 掌握 核心 代码 编写 ,就 可 以 很 快 掌握 模式 识别 技术 。 

本 书 内 容 来 自作 者 的 科研 与 教学 实践 。 读 者 在 学 会 各 种 理论 和 方法 后 ,可 将 书 中 的 不 
同 算法 加 以 改造 应 用 于 自己 的 实际 工作 。 

本 书 第 1~3 章 由 李楠 编写 ,其 余 由 周 润 景 完 成 并 统 稿 ., 定 稿 。 参 加 本 书 编写 的 还 有 邵 
盟 、 南 志 贤 ,刘波 、 李 艳 , 邵 绪 晨 、 冯 震 、 崔 婧 \ 任 自 鑫 、 谢 亚 楠 、 祖 晓 玮 、 张 赫 、 丁 岩 、 井 探 亮 、 邢 
婧 . 陈 萌 。 

在 本 书 的 编写 过 程 中 ,作者 力求 完美 ,但 由 于 水 平 有 限 , 书 中 难免 有 不 足 之 处 , 敬 请 
指正 。 


作 者 
2018 年 3 月 
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模式 识别 概述 


模式 识别 (pattern recognition) 也 称 机 器 识别 ,就 是 通过 计算 机 用 数学 技术 方法 来 进行 
模式 的 自动 处 理 和 判读 。 该 学 科 的 主要 任务 是 利用 计算 机 进行 模拟 人 的 识别 能 力 ,提出 识 
别 具 体 客体 的 基本 理论 与 实用 技术 。 其 最 基本 的 方法 是 计算 , 即 计 算 要 识别 的 事物 与 已 知 
的 标准 事物 的 相似 程度 ,从 而 让 机 器 能 判别 事物 。 因 此 ,找到 度量 不 同事 物 差异 的 有 效 方法 
是 研究 的 关键 。 随 着 计算 机 技术 的 发 展 , 人 类 有 可 能 研究 复杂 的 信息 处 理 过 程 。 我 们 把 环 
境 与 客体 统称 为 “模式 ”。 信 息 处 理 过 程 的 一 个 重要 形式 是 生命 体 对 环境 及 客体 的 识别 。 对 
人 类 来 说 ,特别 重要 的 是 对 光学 信息 (通过 视觉 器 官 来 获得 ) 和 声学 信息 (通过 听觉 器 官 来 获 
得 ) 的 识别 。 这 是 模式 识别 的 两 个 重要 方面 。 模 式 识别 是 确定 一 个 样本 的 类 别 属 性 的 过 程 ， 
即 把 某 一 样本 归属 于 多 个 类 型 中 的 某 个 类 型 。 例 如 ,数据 分 类 ,结果 就 是 将 待 分 类 数据 按 属 
性 分 类 ; 指纹 识别 ,就 是 使 用 指纹 的 总 体 特 征 如 纹 形 .三 角 点 等 来 进行 分 类 ,再 用 局 部 特征 
如 位 置 和 方向 等 来 进行 识别 用 户 身份 ; 还 有 语音 识别 .生物 认证 ,字符 识别 等 。 


1.1.1 模式 的 描述 方法 


对 于 模式 的 描述 方法 有 两 种 : 定量 描述 和 结构 性 描述 。 其 中 ,定量 描述 通过 对 事物 的 
属性 进行 度量 ,用 一 组 数据 来 描述 模式 ; 结构 性 描述 是 对 事物 所 包含 的 成 分 进行 分 析 ,用 一 
组 基 元 来 描述 模式 。 

针对 定量 描述 方法 ,一 个 具体 的 研究 对 象 称 为 样品 。 对 于 一 个 样品 来 说 ,必须 确定 一 些 
与 识别 有 关 的 因素 作为 研究 的 根据 ,每 一 个 因素 称 为 一 个 特征 。 模 式 用 样品 的 一 组 数据 来 
描述 。 模 式 的 特征 集 一 般 可 以 用 特征 向 量 表示 。 特 征 向 量 中 的 每 个 元 素 称 作 特 征 。 假 设 一 
个 样品 和 有 nn 个 特征 ,车 用 小 写字 母 x 来 表示 特征 , 则 可 以 把 和 X 看 作 一 个 n 维 列 向 量 ,该 向 
量 X 称 为 特征 向 量 , 记 作 : 
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be .2 (1-1) 
模式 识别 问题 就 是 根据 六 的 个 特征 来 判别 模式 X 属于 ww ,ws，… ,wu 类 中 的 哪 一 类 。 其 
目的 是 在 特征 空间 和 人 解释 空间 之 间 建 立 一 种 特殊 的 对 应 关系 。 其 中 ,特征 空间 由 特征 向 量 
构成 ,包括 模式 的 度量 、 属 性 等 ,通过 对 具体 对 象 进行 观测 得 到 ; 解释 空间 由 所 属 模式 类 别 
的 集合 构成 。 


1.1.2 模式 识别 系统 


模式 识别 的 关键 是 如 何 利 用 计算 机 进行 模式 识别 ,并 对 样本 进行 分 类 。 执 行 模式 识别 
的 基于 计算 机 的 系统 (可 以 是 各 种 有 计算 能 力 的 处 理 器 系统 ) 称 为 模式 识别 系统 。 该 系统 具 
有 两 种 工作 方式 ,训练 方式 和 识别 方式 。 

图 1-1 是 一 个 典型 的 模式 识别 系统 ,由 数据 获取 、 预 处 理 \ 特 征 提取 、 分 类 决策 及 分 类 器 
设计 等 部 分 组 成 。 该 系统 各 个 组 成 部 分 的 功能 概括 如 下 。 

位 时 类 别 模式 的 分 类 

[家 提交 到 | 一 | 处理 | 一 | 特征 提取 | 一 | 分 类 决策 | 一 分 类 结果 


训 疆 样本 办 人 ~| 现 处 理 | 一 -| 特征 选择 | 一 | 列 定 关 别 卫 数 
改进 尖 别 函数 | | 误差 验证 | 


图 1-1 模式 识别 系统 


(1) 数据 获取 : 一 般 情况 下 ,获取 的 信息 类 型 有 以 下 几 种 。 

。 一 维 波形 : 心电图 、 脑 电波 、 声 波 、 震 动 波 形 等 。 

。 二 维 图 像 : 文字 、 地 图 、 照 片 等 。 

。 物理 参量 : 体温 .化验 数据 ,温度 .压力 ,电流 ,电压 等 。 

(2) 预 处 理 : 对 由 于 信息 获取 装置 或 其 他 因素 所 造成 的 信息 退化 现象 进行 复原 ,去 噪 ， 
加 强 有 用 信息 。 

(3) 特征 提取 : 由 信息 获取 部 分 获得 的 原始 信息 ,其 数据 量 一 般 相 当 大 。 为 了 有 效 地 
实现 分 类 识别 ,应 对 经 过 预 处 理 的 信息 进行 选择 或 变换 ,得 到 最 能 反映 分 类 本 质 的 特征 , 构 
成 特征 向 量 。 其 目的 是 将 维 数 较 高 的 模式 空间 转换 为 维 数 较 低 的 特征 空间 。 

(4) 分 类 决策 : 在 特征 空间 中 用 模式 识别 方法 (由 分 类 器 设计 确定 的 分 类 判别 规则 ) 对 
待 识别 模式 进行 分 类 判别 ,将 其 归 为 某 一 类 别 ,输出 分 类 结果 。 这 一 过 程 对 应 于 特征 空间 向 
类 别 空间 的 转换 。 

(5) 分 类 器 设计 : 为 了 把 待 识别 模式 分 配 到 各 自 的 模式 类 中 ,必须 设计 出 一 套 分 类 判 
别 规则 。 基 本 做 法 是 收集 一 定数 量 的 样本 作为 训练 集 ,在 此 基础 上 确定 判别 函数 改进 判别 


人 
其 中 分 类 器 设计 在 训练 方式 下 完成 ,利用 样本 进行 训练 ,确定 分 类 器 的 具体 参数 ,而 分 
类 决策 在 识别 方式 下 起 作用 ,对 待 识别 的 样本 进行 分 类 决策 。 


模式 识别 的 基本 方法 


模式 识别 作为 人 工 智能 的 一 个 重要 应 用 领域 ,目前 得 到 了 飞速 发 展 。 针 对 不 同 的 对 象 
和 不 同 的 目的 ,可 以 使 用 不 同 的 模式 识别 理论 或 方法 。 目 前 ,基本 的 技术 方法 有 如 下 四 种 。 


1. 统计 模式 识别 


统计 模式 识别 是 首先 根据 待 识别 对 象 所 包含 的 原始 数据 信息 ,从 中 提取 出 若干 能 够 反 
映 该 类 对 象 某 方面 性 质 的 相应 特征 参数 ,并 根据 识别 的 实际 需要 从 中 选择 一 些 参 数 的 组 合 
作为 一 个 特征 向 量 , 根 据 某 种 相似 性 测度 ,设计 一 个 能 够 对 该 向 量 组 表示 的 模式 进行 区 分 的 
分 类 器 ,就 可 把 特征 向 量 相似 的 对 象 分 为 一 类 。 


2. 结构 模式 识别 


当 需 要 对 待 识别 对 象 的 各 部 分 之 间 的 联系 进行 精确 识别 时 ,就 需要 使 用 结构 模式 识别 
方法 。 结 构 模 式 识 别 是 根据 识别 对 象 的 结构 特征 ,将 复杂 的 模式 结构 先 通过 分 解 划 分 为 多 
个 相对 更 简单 且 更 容易 区 分 的 子 模式 , 若 得 到 的 子 模式 仍 有 识别 难度 , 则 继续 对 其 进行 分 
解 , 直 到 最 终 得 到 的 子 模式 具有 容易 表示 且 容 易 识 别 的 结构 为 止 ,通过 这 些 子 模式 就 可 以 复 
原 原 先 比较 复杂 的 模式 结构 。 


3. 模糊 模式 识别 


模糊 集 理论 认为 ,模糊 集合 中 的 一 个 元 素 , 可 以 不 是 百分之百 地 确定 属于 该 集合 ,而 是 
可 以 以 一 定 的 比例 属于 该 集合 ,不 像 传统 集合 理论 中 某 元 素 要 么 属于 要 么 不 属于 该 集合 的 
定义 方式 ,更 符合 现实 当中 许多 模糊 的 实际 问题 ,描述 起 来 更 加 简单 合理 。 在 用 机 器 模拟 人 
类 智能 时 模糊 数学 能 更 好 地 描述 现实 当中 具有 模糊 性 的 问题 ,进而 更 好 地 进行 处 理 。 模 糊 
模式 识别 就 以 模糊 集 理论 为 基础 ,根据 一 定 的 判定 要 求 建立 合适 的 隶属 度 函 数 来 对 识别 对 
象 进行 分 类 。 

正 是 因为 模糊 模式 识别 能 够 很 好 地 解决 现实 当中 许多 具有 模糊 性 的 概念 ,使 其 成 为 一 
种 重要 的 模式 识别 方法 。 在 进行 模糊 识别 时 ,也 需要 建立 一 个 识别 系统 ,需要 对 实际 的 识别 
对 象 的 特征 参数 按照 一 定 的 比例 进行 分 类 ,这 些 比例 往往 是 根据 人 为 的 经 验 作为 参考 值 ,只 
要 符合 认可 的 经 验 认 识 就 行 ,之 后 建立 能 够 处 理 模糊 性 问题 的 分 类 器 对 不 同类 别 的 特征 向 
量 进行 判别 。 


4. 人 工 神经 网 络 


神经 网 络 分 为 四 种 类 型 , 即 向 前 型 .反馈 型 .随机 型 和 自 组 织 竞 争 。 神 经 网 络 作为 模式 
识别 技术 当中 最 重要 的 方法 之 一 ,相对 于 传统 的 模式 识别 方法 , 它 具 有 如 下 优势 。 
(1) 神经 网 络 属于 学 习 及 自 适应 能 力 很 强 的 方法 。 


人 

(2) 对 于 任意 给 定 的 函数 ,神经 网 络 都 能 够 无 限 逼 近 ,这 是 因为 在 分 类 的 整个 过 程 中 ， 
神经 网 络 通过 调整 权 值 不 断 地 明确 分 类 所 依据 的 精确 关系 。 

(3) 神经 网 络 属于 非 线性 模型 ,这 使 得 它 能 够 灵活 地 模拟 现实 世界 中 的 数据 之 间 的 复 
杂 关系 模型 。 


模式 识别 的 应 用 


模式 识别 是 一 种 智能 的 活动 , 它 包括 分 析 和 判断 两 个 过 程 。 随 着 计算 机 性 能 的 提高 , 互 
联网 技术 的 迅速 发 展 、 理 论 研究 的 深入 以 及 和 其 他 研究 领域 (如 机 器 学 习 、 数 学 、 统 计 学 、 生 
物 学 等 ) 的 促进 、 融 合 , 现 在 模式 识别 技术 已 经 被 普遍 地 应 用 于 生物 学 (自动 细胞 学 、 染 色 体 
特性 研究 、 遗 传 研究 ) ,天 文学 (天 文 望远镜 图 像 分 析 、 自 动 光 谱 学 ) 经济 学 (股票 交易 预测 、 
企业 行为 分 析 )、 医 学 (心电图 分 析 、 脑 电 图 分 析 、 医 学 图 像 分 析 )、 工 程 (产品 缺陷 检测 ,特征 
识别 、 语 音 识 别 、 自 动 导航 系统 \ 污 染 分 析 ) ,军事 (航空 摄像 分 析 、 雷 达 和 声呐 信号 检测 和 分 
类 、 自 动 目标 识别 ) \ 安 全 (指纹 识别 、 人 脸 识 别 、 监 视 和 报警 系统 ) 等 领域 。 

本 书 基 于 MATLAB 实现 不 同 模式 识别 方法 的 应 用 ,以 酒 瓶 颜色 的 分 类 为 主 。 由 不 同 
材料 制 成 的 不 同 颜色 和 项 目的 玻璃 必须 被 分 类 ,以 获得 高 质量 的 可 回收 原料 。 在 玻璃 回收 
厂 , 玻 璃 瓶 被 分 类 放置 到 容器 中 ,然后 一 起 熔化 处 理 产 生 新 的 玻璃 。 在 这 个 过 程 中 ,玻璃 瓶 
被 分 选 到 不 同 容器 这 一 步 是 很 重要 的 ,因为 生产 玻璃 的 不 同 客户 需要 不 同 的 颜色 ,并 且 回 收 
的 瓶子 颜色 混杂 ,对 瓶子 的 分 类 没有 预先 设 定 。 在 这 种 情况 下 ,多 数 操作 员 根 据 经 验 手 工分 
选 回收 的 瓶子 ,以 使 生产 的 玻璃 达到 期 望 的 颜色 。 这 既 费时 又 费力 ,而 通过 模式 识别 的 方法 
分 类 , 则 既 解放 了 生产 力 , 又 提高 了 效率 。 表 1-1 为 59 组 三 元 色 数 据 ,其 中 前 29 组 作为 训 
练 数据 ,后 30 组 作为 测试 数据 。 前 29 组 数据 的 类 别 已 经 给 出 。 

表 1-1 三 元 色 数据 


序 号 A B C 所 属 类 别 
1739. 94 1675. 15 2395. 96 3 
2 373.3 3087.05 2429. 47 4 
3 1756.77 1652 1514. 98 3 
4 864.45 1647. 31 2665.9 1 
5 222. 85 3059. 54 2002. 33 4 
6 877. 88 2031. 66 3071. 18 i 
7 1803. 58 1583. 12 2163. 05 3 
8 2352. 12 2557. 04 1411. 53 2 
9 401. 3 3259. 94 2150. 98 4 
10 363. 34 3477. 95 2462. 86 4 
11 1571.17 1731. 04 1735. 33 3 
12 104.8 3389. 83 2421. 83 4 
13 499. 85 3305.75 2196. 22 4 
14 2297. 28 3340. 14 535. 62 2 
15 2092. 62 3177. 21 584. 32 2 
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续 表 
A B 所 属 类 别 

16 1418.79 1775. 89 2772.9 1 
Tl 1845. 59 1918. 81 2226. 49 3 
18 2205. 36 3243. 74 1202. 69 
19 2949. 16 3244. 44 662. 42 2 
20 1692. 62 1867.5 2108. 97 3 
加 | 1680. 67 1575. 78 1725. 1 3 
22 2802. 88 39017: 加 1984. 98 2 
23 下 下 绚 3084. 49 2328. 65 4 
24 2063. 54 3199.76 1257..21 时 
25 1449. 58 1641. 58 3405. 12 1 
26 1651. 52 这 他 呢 1570. 38 3 
27 341. 59 3076. 62 2438. 63 4 
28 291. 02 3095. 68 2088. 95 4 
29 237. 63 3077.78 2251. 96 4 
30 1702.8 1639.79 2068.74 一 
31 1877.93 1860. 96 1975. 3 一 
32 867. 81 2334. 68 2535.1 一 
33 1831. 49 TE 1604. 68 

34 460. 69 3274.77 2172. 99 

35 2374. 98 3346. 98 975. 31 

36 2271. 89 3482. 97 946.7 

37 1783. 64 1597. 99 2261. 31 

38 198. 83 3250. 45 2445. 08 

39 1494. 63 2072. 59 2550.51 

40 1597. 03 1921. 52 2126.76 一 
41 1598. 93 1921. 08 1623. 33 一 
42 1243. 13 1814. 07 3441. 07 一 
43 2336. 31 2640. 26 1599. 63 一 
44 354 3300. 12 2373. 61 一 
45 2144. 47 2501. 62 591. 51 一 
46 426. 31 3105. 29 2057.8 
47 1507. 13 1556. 89 1954. 51 一 
48 343. 07 缀 ?1 碗 2036. 94 一 
49 2201. 94 3196. 22 935. 53 — 
50 2232. 43 3077. 87 1298. 87 一 
51 1580.1 1752. 07 2463. 04 一 
52 1962.4 1594. 97 1835. 95 一 
53 1495. 18 1957. 44 3498. 02 一 
54 1125.17 1594. 39 2937.73 — 
55 24. 22 3447. 31 2145.01 一 
56 1269. 07 1910.72 2701. 97 一 
57 1802. 07 1725. 81 1966. 35 一 
58 1817. 36 1927. 4 2328. 79 一 
59 1860. 45 1782. 88 1875. 13 一 
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> 


本 书 分 类 器 的 设计 都 是 基于 MATLAB 2016 实现 的 。MATLAB 软件 是 实现 各 种 相关 
算法 的 大 众 化 软件 ,2016 版 的 MATLAB 已 经 集成 了 100 多 种 神经 网 络 的 工具 箱 及 其 他 算 
法 的 工具 箱 , 使 用 简单 方便 。 


(1) 什么 是 模式 识别 ? 
(2) 模式 识别 的 基本 方法 有 哪些 ? 


贝 叶 斯 分 类 器 设计 


分 类 有 基于 规则 的 分 类 (查询 ) 和 非 规则 分 类 (有 指导 学 习 )。 贝 叶 斯 分 类 是 非 规则 分 类 ， 
它 通过 训练 集 (已 分 类 的 例子 集 ) 训 练 来 归纳 出 分 类 器 ,并 利用 分 类 器 对 未 分 类 的 数据 进行 分 
类 。 其 基本 思想 是 依据 类 的 概率 ,概率 密度 ,按照 某 种 准则 使 分 类 结果 从 统计 上 讲 是 最 佳 的。 


2.1.1 贝 叶 斯 决策 简介 


贝 叶 斯 决策 理论 就 是 在 不 完全 情报 下 ,对 部 分 未 知 的 状态 用 主观 概率 进行 估计 ,然后 用 
贝 叶 斯 公式 对 发 生 的 概率 进行 修正 ,最 后 再 利用 期 望 值 和 修正 概率 做 出 最 优 决策 。 

贝 叶 斯 决策 属于 风险 型 决策 ,决策 者 虽 不 能 控制 客观 因素 的 变化 ,但 却 掌握 其 变化 的 可 
能 状况 及 各 状况 的 分 布 概率 ,并 利用 期 望 值 即 未 来 可 能 出 现 的 平均 状况 作为 决策 准则 。 

贝 叶 斯 决策 理论 方法 是 统计 模型 决策 中 的 一 个 基本 方法 ,其 基本 思想 如 下 。 

(1) 已 知 类 条 件 概 率 密度 参数 表达 式 和 先 验 概率 。 

(2) 利用 贝 叶 斯 公式 转换 成 后 验 概率 。 

(3) 根据 后 验 概率 大 小 进行 决策 分 类 。 


2.1.2 贝 叶 斯 公式 


车 已 知 总 共有 M 类 样品 ,以 及 各 类 在 n 维特 征 空间 的 统计 分 布 , 根 据 概率 知识 可 以 通过 
样品 库 得 知已 知 各 类 别 wi(i 二 1,2,… ,MD) 的 先 验 概率 P(wi) 及 类 条 件 概率 密度 函数 PCX|w;)。 
对 于 待 测 样品 , 贝 叶 斯 公式 可 以 计算 出 该 样品 分 属 各 类 别 的 概率 , 叫 作 后 验 概率 ; 比较 各 个 后 
验 概率 , 取 P(w:|X) 的 最 大 值 ,就 把 天 归于 后 验 概率 最 大 的 那个 类 。 贝 叶 斯 公式 为 

二 | wi) PCoi) 
DP [oPew) 


Pa 


C2 


Plw; | X) = 
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1. 先 验 概率 


先 验 概率 P(wi) 代 表 还 没有 训练 数据 前 w; 拥有 的 初始 概率 。P(wi) 反 映 了 我 们 所 拥有 
的 关于 ww 是 正确 分 类 的 背景 知识 , 它 是 独立 于 样本 的 。 如 果 没 有 这 一 先 验 知识 ,那么 可 以 
简单 地 将 每 一 候选 类 别 赋予 相同 的 先 验 概 率 ,通常 用 样本 中 属于 ww 的 样本 数 与 总 样本 数 的 
比值 来 近似 。 


2. 后 验 概率 


后 验 概率 是 关于 随机 事件 或 者 不 确定 性 断言 的 条 件 概 率 ,是 在 相关 证 据 或 者 背景 给 定 
并 纳入 考虑 之 后 的 条 件 概 率 。 后 验 概率 分 布 就 是 以 未 知 量 作 为 随机 变量 的 概率 分 布 ,并 且 
是 在 基于 实验 或 者 调查 所 获得 的 信息 上 的 条 件 分 布 。“ 后 验 ” 在 这 里 的 意思 是 考虑 相关 事件 
已 经 被 检视 并 且 能 够 得 到 一 些 信息 。 这 种 可 能 性 可 用 P(y。 |zx) 表 示 。 可 以 利用 贝 叶 斯 公 
式 来 计算 这 种 条 件 概 率 , 称 为 状态 的 后 验 概率 已 yw|z)。 
PC le | ym) POOyn) 
po D PCyw) Pz | ym) 


P(ym|x) 表 示 在 xz 出 现 的 条 件 下 样品 为 ym 类 的 概率 。 在 这 里 要 弄 清楚 条 件 概率 这 个 


Pilys | 2 (2-2 


3. 先 验 概率 与 后 验 概率 的 区 别 


先 验 概率 是 指 根 据 以 往 经 验 和 分 析 得 到 的 概率 , 它 往往 作为 由 因 求 果 ” 问 题 中 的 “ 因 ” 
出 现 。 后 验 概率 是 指 在 得 到 “结果 ”的 信息 后 重新 修正 的 概率 ,是 “ 执 果 寻 因 ” 问 题 中 的 “ 因 ”。 
后 验 概 率 是 基于 新 的 信息 ,修正 原来 的 先 验 概率 后 所 获得 的 更 接近 实际 情况 的 概率 估计 。 
先 验 概率 和 后 验 概率 是 相对 的 。 如 果 以 后 还 有 新 的 信息 引入 ,更 新 了 现在 所 谓 的 后 验 概率 ， 
得 到 新 的 概率 值 ,那么 这 个 新 的 概率 值 被 称 为 后 验 概率 。 


多 本 基于 最 小 错误 率 的 贝 叶 斯 决策 


基于 最 小 错误 率 的 贝 叶 斯 决策 ,就 是 利用 贝 叶 斯 公式 ,按照 尽量 减少 分 类 错误 的 原则 而 
得 出 的 一 种 分 类 规则 ,可 以 使 得 错误 率 最 小 。 


2.2.1 基于 最 小 错误 率 的 贝 叶 斯 决策 理论 
在 一 般 的 模式 识别 问题 中 ,人 们 的 目标 往往 是 尽量 减少 分 类 的 错误 ,追求 最 小 的 错误 
率 , 即 求解 一 种 决策 规则 ,使 得 
minP(e) = |Pe | z)PCzr)dz (2-3) 


这 就 是 基于 最 小 错误 率 的 贝 叶 斯 决策 。 
在 式 (2-3) 中 ,P(elx) 宇 0, P(xz) 宇 0 对 于 所 有 的 工 均 成 立 , 故 minP(e) 等 同 于 对 所 有 的 


是 
最 小 化 PCelz) ,即使 后 验 概率 PCws|z) 最 大 化 。 根 据 贝 叶 斯 公式 


PCzr | w)P(wi) PCz | wi)P(wi) 
了 ay 


Pe | 2 (2-4) 


DBs loa) Po) Pz) 
在 式 (2-4) 中 ,对 于 所 有 类 别 ,分 母 都 是 相同 的 ,所 以 决策 的 时 候 实 际 上 只 需要 比较 分 子 , 即 
Pt | od) Po) = maxP(z [wi)P(lw), rE wi 2-85) 


先 验 概率 P(w;) 和 类 条 件 概率 密度 P(x|wi) 是 已 知 的 。 概 率 密度 P(x|wi) 反 映 了 在 wi 
类 中 观察 到 特征 值 z 的 相对 可 能 性 。 
对 于 多 类 别 决策 ,错误 率 的 计算 量 较 大 ,可 以 转化 为 计算 平均 正确 率 PCc) 来 计算 错误 率 ; 


大 k 
P(e)=1—P(O)=1— DyPCz E RIw)P(lw)=1— PDP) Pz | wj )dz 
大 dl 证 


(2-6) 
2.2.2 最 小 错误 率 贝 叶 斯 分 类 的 计算 过 程 
1， 先 期 进行 的 计算 
(1) 求 出 每 一 类 样本 的 均值 。 
击 三 Sl i= 1,2,354; f=0,1325° ,Ni (2-7) 


共有 29 个 样本 ,N; 二 29; 分 四 类 ,wo 一 4。 
第 一 类 : Ni (样本 数目 )=4; 第 二 类 : N,==7; 第 三 类 : N;,==8; 第 四 类 : N4 王 10。 
第 一 类 样本 为 : 


A=[864.45 877.88 1418.79 1449.58;1647.31 2031.66 1775.89 1641.58;2665.9 
3071.18 2772.9 3045.12]; 


求 出 第 一 类 样本 的 均值 为 : 


3 去 
1.0e+03 
1.1527 
1.7741 
2.8888 


(2) 求 出 每 一 类 样本 的 协 方差 矩阵 。 
求 出 每 一 类 样本 的 协 方差 矩阵 Si ,并 求 出 其 道 矩阵 S ”和 行列 式 。 其 中 ,! 为 样本 在 每 
一 类 的 序号 ; j 和 & 为 特征 值 序 号 ; N; 为 每 类 学 习 样本 中 包含 的 元 素 个 数 。 


Wy 
s-|: 
Un Urm 
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SS 及 


a 
Ux 一 Nid an — Bl,. FR lm t= lama (2 


第 一 类 样本 的 协 方差 矩阵 为 : 


(3) 求 第 一 类 样本 的 协 方差 矩阵 的 逆 矩 阵 。 
求 得 第 一 类 样本 的 协 方差 矩阵 的 逆 矩 阵 为 : 


(4) 求 第 一 类 样本 的 协 方差 矩阵 的 行列 式 值 。 
求 得 第 一 类 样本 的 协 方差 矩阵 的 行列 式 值 为 ; 


2， 其 他 各 类 求 值 


其 协 方差 矩阵 为 : 


其 协 方差 矩阵 的 道 矩 阵 为 : 


其 协 方差 矩阵 的 行列 式 值 为 ; 


其 协 方差 矩阵 为 


其 协 方差 矩阵 的 逆 矩 阵 为 : 


其 协 方差 矩阵 行列 式 的 值 为 ; 
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第 四 类 样本 为 : 


其 均值 为 ; 


其 协 方差 矩阵 为 : 


其 协 方差 矩阵 的 逆 矩 阵 为 ; 


其 协 方差 矩阵 行列 式 的 值 为 : 


然后 计算 每 类 数据 的 先 验 概率 如 下 : 


至 此 ,前 期 的 计算 基本 完 


2.2.3 最 小 错误 率 贝 叶 斯 分 类 的 MATLAB 实现 


1. 初始 化 
初始 化 程序 如 下 : 


输入 训练 样本 数 ,类 别 数 ,特征 数 ,以 及 属于 各 类 别 的 样本 个 数 
N=29;w=4;n=3;Nl =4;N2=7;N3= 8;N4= 10; 


2. 参数 计算 
参数 计算 程序 如 下 : 


% 计算 每 一 类 训练 样本 的 均值 
X1 = mean(A')';X2 = mean(B')';X3 = mean(C')';X4 = mean(D')'; 
% 求 每 一 类 样本 的 协 方差 甜 阵 

S1 = cov(A');S2 = cov(B');S3 = cov(C');S4 = cov(D'); 
多 计算 协 方差 矩阵 的 逆 和 矩阵 

S1 =inv(S1);S2 = inv(S2);S3_= inv(S3);S4_= inv(S4) 7 
多 计算 协 方差 矩阵 的 行列 式 

S11 = det(S1);S22 = det(S2);S33 = det(S3);S44 = det(S4) 7 
计算 训练 样本 的 先 验 概率 

Pwl = N1/N;Pw2 = N2/N;Pw3 = N3/N;Pw4 = NA/N; % Priori probability 
计算 后 验 概率 : 在 这 里 定义 了 一 个 循环 
for k=1:30 
Pl= -1/2x* (sample(k,:)'—X1)'*S1 x (sample(k,:)'—X1)+log(Pwl)—1 
P2= -1/2* (sample(k,:)'—X2)'x S2_ x (sample(k,:)'—X2) +1log(Pw2)—1 
P3= —1/2x (sample(k, :)'—X3)'x* S3_x*x (sample(k,:)'—X3)+1log(Pw3)—1 
P4= —1/2x (sample(k,:)'—X4)'x* S4 x* (sample(k,:)'—X4)+1log(Pw4)—1 


3. MATLAB 完整 程序 及 仿真 结果 
MATLAB 程序 如 下 : 


clear; 
clc; 
N=29;w=4;n=3;M =4;WH2=7;83= 8;M = 10; 


/2*x 10g(S11); 
/2* 10g(S22); 
/2 *# 10g(S33); 
/2*# 10g(S44); 


A=[864.45 877.88 1418.79 1449.58;1647.31 2031.66 1775.89 1641.58;2665.9 


3071.18 2772.9 3045.12]; $%A belongs towl 
B=[2352.12 2297.28 2092.62 2205.36 2949.16 2802.88 2063.54 
2557.04 3340.14 3177.21 3243.74 3244.44 3017.11 3199.76 
1411.53 535.62 584.32 1202.69 662.42 1984.98 1257.21]; 
C=[1739.94 1756.77 1803.58 1571.17 1845.59 1692.62 1680.67 


% B belongs to w2 
1651.52 1675.15 


1652 1583.12 1731.04 1918.81 1867.5 1575.78 1713.28 2395.96 


1514.98 2163.05 1735.33 2226.49 2108.97 1725.1 1570.38]; 


%C belongs to w3 


D=[373.3 222.85 401.3 363.34 104.8 499.85 172.78 341.59 291.02 237.63 
3087.05 3059.54 3259.94 3477.95 3389.83 3305.75 3084.49 3076.62 3095.68 
3077.78 2429.47 2002.33 2150.98 2462.86 2421.83 3196.22 2328.65 2438.63 


2088.95 2251.96]; 


SD belongs to w4 


和 以 上 为 学 习 样本 数据 的 输入 
X1 = mean(A')';X2 = mean(B')';X3 = mean(C')';X4 = mean(D')'; 名 求 样本 均值 
S1 = cov(R') ;S2 = cov(B');S3= cov(C');S4= cov(D'); 委 求 样本 协 方差 矩阵 
S1_= inv(S1);S2_= inv(S2);S3_= inv(S3);S4_= inv(S4); 当 求 协 方差 矩阵 的 逆 矩 阵 
S11 = det(S1);S22 = det(S2);S33 = det(S3);S44 = det(S4); 名 求 协 方差 矩阵 的 行列 式 
Pwl = N1/N;Pw2 = N2/N; Pw3 = N3/N; Pw4 = NA/N; 名 先 验 概率 


多 这 部 分 为 初始 样本 数据 计算 
sample= [1702.8 1639.79 2068.74 
1877.93 1860.96 1975.3 
867.81 2334.68 2535.1 
1831.49 1713.11 1604.68 
460.69 3274.77 2172.99 
2374.98 3346.98 975.31 
2271.89 3482.97 946.7 
1783.64 1597.99 2261.31 
198.83 3250.45 2445.08 
1494.63 2072.59 2550.51 
1597.03 1921.52 2126.76 
1598.93 1921.08 1623.33 
1243.13 1814.07 3441.07 
2336.31 2640.26 1599.63 
354 3300.12 2373.61 
2144.47 2501.62 591.51 
426.31 3105.29 2057.8 
1507.13 1556.89 1954.51 
343.07 3271.72 2036.94 
2201.94 3196.22 935.53 
2232.43 3077.87 1298.87 
1580.1 1752.07 2463.04 
1962.4 1594.97 1835.95 
1495.18 1957.44 3498.02 
1125.17 1594.39 2937.73 
24.22 3447.31 2145.01 
1269.07 1910.72 2701.97 
1802.07 1725.81 1966.35 
1817.36 1927.4 2328.79 
1860.45 1782.88 1875.13]; 
这 部 分 为 测试 数据 输入 
for k=1:30 
P1= -1/2x (sample(k,:)'—X1)'xS1 x*x (sample(k, 
第 一 类 的 判别 函数 
P2= —1/2x (sample(k, :)'— X2)'x S2_* (sample(k, 
第 二 类 的 判别 函数 
P3= -1/2* (sample(k, :)'— X33)'x*S3_ x* (sample(k, 
第 三 类 的 判别 函数 
P4= -1/2x (sample(k,:)'— X4)'x* S4_ x (sample(k, 


:)'—X1) +log(Pw1) — 1/2* log(S11); 
:)'—X2) + log(Pw2) - 1/2 * 10g(S22); 
:)'—X3) + log(Pw3) - 1/2 x 10g(S33); 


:)'—X4) + log(Pw4) — 1/2 x log(S44); 


名 第 四 类 的 判别 函数 
P= [Pl1 P2 P3 P4] 
Pmax = max(P) 
if Pl == max(P) 
而 过 进 
plot3(sample(k,1), sample(k, 2), sample(k, 3), 'ro');grid on;hold on; 
elseif P2 == max(P) 
W=2 
plot3(sample(k, 1), sample(k, 2), sample(k, 3), 'b>');grid on; hold on; 
elseif P3 == max(P) 
二 二 这 


plot3(sample(k,1), sample(k,2), sample(k,3),'g + ');grid on;hold on; 
elseif P4 == max(P) 


w=4 
plot3(sample(k,1), sample(k,2), sample(k, 3),'y* ');grid on;hold on; 
else 
return 名 判别 函数 最 大 值 对 应 的 类 别 
end 
end 


运行 程序 得 出 如 图 2-1 所 示 的 测试 数据 分 类 图 界面 。 


文 伯 ( 朋 ”篇 久 (日 查看 WV) 质 入 () 工具 (T) 点 面 D) 窟 DW) 帮助 (H) 
站 已 回 归 | RSS GR 0 加 ma 


图 2-1 测试 数据 分 类 图 界面 


从 图 2-5 中 可 以 看 出 数据 分 类 效果 比较 好 。 
MATLAB 程序 运行 结果 如 下 : 


P= 
=34.7512 37-7619 = 二 16:6744 一 171:1604 
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P = 


一 TI7652” 王 53-9295 一 379.5944 =21,3597 


Pmax = 
135937 


一 20.5508 -36.8251 一 47.0716 一 98.7984 


一 43.0681 -35.3828 一 16.7483 一 181.9830 


-36.4518 一 31.0477 -18.0932 ”一 165.2229 


一 50.6918 -34.0120 -18.4786 - 189.7615 


表 2-1 所 示 为 待 测 样本 分 类 表 。 


表 2-1 待 测 样本 分 类 表 


A B © Pl P2 P3 P4 类 别 
1702.8 1639. 79 2068.74 | 一 34.7512 | 一 37.7619 | 一 16. 6744 | 一 171. 1604 3 
1877. 93 1860. 96 1975. 3 一 49.5808 | 一 32.0756 | 一 19. 1319 | 一 185. 7206 3 
867. 81 2334. 68 2535 一 36. 8429 | 一 105.8245 | 一 48.9684 1 
1831. 49 1713. 11 1604. 68 | 一 61.5273 | 一 36. 6998 | 一 19.0123 | 一 196. 0725 3 
460. 69 | 3274.77 2172. 99 | 一 107. 6977 | 一 42.9982 | 一 244. 6344 | 一 19. 1425 4 
2374.98 | 3346.98 975. 31 .1237 | 一 19. 3722 | 一 192. 5329 | 一 315. 7399 
2271.89 | 3482.97 946.7 “| 一 344. 0690 | 一 20.1602 | 一 197. 4786 | 一 298. 5021 2 
1783. 64 1597. 99 2261.31 | 一 28.8735 | 一 37.9474 | 一 17. 5637 | 一 182. 7101 3 
198. 83 | 3250.45 2445.08 | 一 84.2886 | 一 50.7629 | 一 316. 2804 | 一 17. 1190 4 
1494.63 | 2072.59 2550.51 | 一 29. 6605 | 一 31.8272 | —29.1895 | 一 112. 1975 3 
1597. 03 1921. 52 2126.76 | 一 39.9950 | 一 32.5544 | 一 19. 4480 | 一 138. 2933 3 
1598. 93 1921.08 1623. 33 | 一 65.6213 | 一 33. 2003 | 一 19.1755 | 一 148. 7788 3 
1243. 13 1814. 07 3441.07 | 一 23.1508 | 一 42.2485 | 一 69.4564 | 一 108. 1711 1 


模式 识别 与 人 工 智 能 (基于 MATLAB) 


续 表 

A B © Pi 了 P2 P3 P4 类 别 
2336. 31 2640. 26 1599. 63 一 150. 6823 | 一 20. 5669 | 一 92.9234 | 一 261. 7163 2 
354 3300. 12 2373. 61 一 95. 2729 47. 3863 277. 7827 16. 8863 4 
2144. 47 2501. 62 591. 51 一 235. 4394 | 一 25.0041 | 一 92.9044 | 一 273. 8238 2 
426. 31 3105. 29 2057. 8 一 98. 6750 | 一 41. 1397 | 一 233. 0440 一 18. 6408 4 
1507. 13 1556. 89 1954. 51 一 34. 3114 | 一 41. 4903 | 一 21. 3935 | 一 152. 9500 3 
343.07 3271.72 2036. 94 一 114. 2256 | 一 43.9679 | 一 269. 1704 一 18. 1769 4 
2201. 94 3196.22 935.53 一 293..2196 | 一 19.1168 |—152.2279 | —273,4275 2 
2232. 43 3077. 87 1298. 87 一 231. 6066 | 一 19. 1683 | 一 129.1233 | 一 256. 2709 2 
1580. 1 1752. 07 2463. 04 一 24. 4899 | 一 35. 9915 | 一 21. 5651 | 一 142. 4473 3 
1962. 4 1594. 97 1835. 95 一 47. 4226 | 一 38. 2727 | 一 22.5483 | 一 219. 5498 3 
1495. 18 1957. 44 3498. 02 一 22.7587 | 一 38.1842 | 一 44.9330 | 一 118. 0112 1 
1125. 17 1594. 39 2937. 73 一 19.2874 | 一 44.7372 | 一 72. 1963 | 一 112. 7623 1 
24. 22 3447. 31 2145. 01 一 117. 7652 | 一 53. 9295 | 一 379. 5944 一 21. 3597 4 
1269. 07 1910.72 2701. 97 一 20. 5508 | 一 36.8251 | 一 47.0716 一 98.7984 1 
1802. 07 1725. 81 1966. 35 一 43.0681 | 一 35. 3828 | 一 16.7483 | 一 181. 9830 3 
1817. 36 1927. 4 2328. 79 一 36.4518 | 一 31.0477 | 一 18.0932 | 一 165. 2229 3 
1860. 45 1782. 88 1875. 13 一 50. 6918 | 一 34.0120 | 一 18.4786 | 一 189.7615 3 


对 比 正确 分 类 后 发 现 ,只 有 一 组 数据 (1494. 63,2072. 59,2550. 51) 与 正确 分 类 有 出 人 ， 
该 分 类 是 第 三 类 (w;) ,但 正确 分 类 为 第 一 类 (wi)。 

反 过 来 验证 一 下 学 习 样 本 ,程序 不 变 , 只 在 数据 输入 时 改 成 学 习 样 本 ,循环 次 数 做 一 下 
调整 ,得 到 的 结果 如 图 2-2 所 示 。 


1500 0 
图 2-2 训练 样本 分 类 图 


可 以 看 到 验证 出 的 数据 与 原始 学 习 样本 的 分 类 是 吻合 的 ,因此 可 以 判定 本 例 的 最 小 错 
误 率 贝 叶 斯 判别 方法 基本 正确 。 


2.2.4 结论 


从 理论 上 讲 ,依据 贝 叶 斯 理论 所 设计 的 分 类 器 应 该 具有 最 优 的 性 能 ,如 果 所 有 的 模式 识 


别 问题 都 可 以 这 样 来 解决 ,那么 模式 识别 问题 就 成 了 一 个 简单 的 计算 问题 ,但 是 实际 问题 往 
往 更 复杂 。 贝 叶 斯 决策 理论 要 求 两 个 前 提 , 一 个 是 分 类 类 别 数目 已 知 ; 另 一 个 是 类 条 件 概 
率 密度 和 先 验 概率 已 知 。 前 者 很 容易 解决 ,而 后 者 通常 就 不 容易 满足 了 。 基 于 贝 叶 斯 决策 
的 分 类 器 设计 方法 是 在 已 知 类 条 件 概 率 密度 的 情况 下 讨论 的 , 贝 叶 斯 判别 函数 中 的 类 条 件 
概率 密度 是 利用 样本 来 估计 的 ,估计 出 来 的 类 条 件 概率 密度 函数 可 能 是 线性 函数 ,也 可 能 是 
各 种 各 样 的 非 线性 函数 。 这 种 设计 判别 函数 的 思路 ,在 用 样本 估计 之 前 ,是 不 知道 判别 函数 
是 线性 函数 还 是 别 的 什么 函数 的 ,而 且 有 时 候 受 样本 空间 大 小 、 维 数 等 影响 ,类 条 件 概率 密 
度 函 数 更 加 难以 确定 。 


最 小 风险 贝 叶 斯 决策 


2.3.1 最 小 风险 贝 叶 斯 决策 理论 


决策 理论 是 为 了 实现 特定 的 目标 ,根据 客观 的 可 能 性 ,在 占有 一 定 信 息 和 经 验 的 基础 
上 ,借助 一 定 的 工具 、 技 巧 和 方法 ,对 影响 未 来 目标 实现 的 诸 因 素 进行 准确 的 计算 和 判断 优 
选 后 ,对 未 来 行动 做 出 决定 。 在 某 些 情况 下 ,引入 风险 的 概念 以 求 风险 最 小 的 决策 更 为 合 
理 。 例 如 对 癌 细 胞 的 识别 ,识别 的 正确 与 否 直接 关系 到 病人 的 身体 健康 。 风 险 的 概念 常 与 
损失 相 联 系 。 当 参数 的 真 值 和 决策 结果 不 一 致 会 带 来 损失 时 ,这 种 损失 作为 参数 的 真 值 和 
决策 结果 的 函数 , 称 为 损失 函数 。 损 失 函 数 的 期 望 值 称 为 风险 函数 。 为 了 分 析 引 入 损失 瑞 
数 ACaisw) (i 二 1,2,… va; J 二 1,2,"…,m) ,这 个 函数 表示 当 处 于 状态 wj 时 采取 决策 为 w 所 
带 来 的 损失 。 在 决策 论 中 , 常 以 决策 表 一 目 了 然 地 表示 各 种 情况 下 的 决策 损失 ,我 们 用 
表 2-2 来 描述 。 这 是 在 已 知 先 验 概率 P(wi) 及 类 条 件 概率 密度 PXIw;) (二 1,2,…,m) 的 
条 件 下 进行 讨论 的 。 

表 2-2 贝 叶 斯 决策 表 


状 态 
决 策 
oe 0 A ep et i 
a hm sw1) Mayoz) 本 ha ,ww) 本 ACai swm) 
oz ACaz sw1) Alaz sw2) 本 haz v00;) 2 haz swm) 
ar Xarsan) ACai ,wz) 本 ACai sy) 酌 ACarswn) 
a Alas sy ) Alas oz) 本 XCas ,mi) 2 ACas swm) 


根据 贝 叶 斯 公式 ,后 验 概率 为 
Plw; | X) 


PX Tod)Plo) ， nt (2-9) 


PPX | wi) Pwi) 
i=1 


柑 式 识 列 与 人 工 旬 能 (基于 MATLAB) 

当 引 入 “损失 ”的 概念 后 考虑 错 判 所 造成 的 损失 时 ,就 不 能 只 根据 后 验 概率 的 大 小 做 决策 ,而 
必须 考虑 所 采取 的 决策 是 否 损失 为 最 小 。 对 于 给 定 的 ,如果 采取 决策 ui(i 一 1,2， We A 
可 以 在 m 个 (aiswj),j 二 1,2,…,m 当中 任 取 一 个 ,其 相应 概率 密度 函数 为 PCwj |X)。 

在 采取 决策 w 情况 下 的 条 件 期 望 损失 为 


Rlai | X) = ELA(ai,wi)] = Pac swi)Plw; | X), i= 1,2,.,a (2-10) 


在 决策 论 中 又 把 采取 决策 a ; 的 条 件 期 望 损失 RC |X) 称 为 条 件 风 险 。 由 于 XX 是 随机 
向 量 的 观察 值 ,对 于 XX 的 不 同 观察 值 ,采取 ai 决策 时 ,其 条 件 风险 的 大 小 是 不 同 的 。 所 以 究 
竞 采 取 哪 一 种 决策 将 随 XX 的 取 值 而 定 。 决 策 a 可 以 被 看 成 随机 向 量 X 的 函数 , 记 为 
a(X) ,这 里 定义 期 望 风险 为 


R= [Ree | X)P(X)dx (2-11) 


式 中 ,dz 是 特征 空间 的 体积 元 ,积分 在 整个 特征 空间 进行 。 期 望 风险 RR 反映 对 整个 特征 空 
间 所 有 X 的 取 值 都 采取 相应 的 决策 a(X) 所 带 来 的 平均 风险 ; 而 条 件 风险 RCa;|XX) 只 是 反 
映 了 对 某 一 的 取 值 采取 决策 a; 所 带 来 的 风险 。 显 然 ,需要 采取 一 系列 决策 a(X) 使 期 望 
风险 尺 最 小 。 在 考虑 错 判 带 来 的 损失 时 ,我们 希望 损失 最 小 。 如 果 在 采取 每 一 个 决策 或 行 
动 时 ,都 使 其 风险 最 小 , 则 对 所 有 的 X 做 出 决策 时 ,其 期 望 风险 也 必然 最 小 ,这 样 的 决策 就 
是 最 小 风险 贝 叶 斯 决策 。 

最 小 风险 贝 叶 斯 决策 规则 为 : 如 果 

Rose | X) = minR(a; | X), i= 1,2,%,a (2-12) 

则 有 a 二 alk)( 即 采取 决策 w)。 对 于 实际 问题 ,可 按 下 列 步骤 进行 最 小 风险 贝 叶 斯 决策 。 

(1) 在 已 知 P(w) ,PCXIwj) 一 1,2, 22, 并 给 出 待 识 别 的 X 的 情况 下 ,根据 贝 叶 斯 
公式 可 以 计算 出 后 验 概率 , 见 式 (2-9)。 

(2) 利用 计算 出 的 后 验 概率 及 决策 表 , 按 式 (2-10) ,计算 出 a;(i 二 1,2,…,a) 的 条 件 风 
险 R(a;|X)。 

(3) 对 步 双 (2) 中 得 到 的 a 个 条 件 风 险 值 RCai|X) (i 二 1,2,…,a) 进 行 比较 , 找 出 使 条 件 
风险 最 小 的 决策 w ,根据 式 (2-12) , 则 wx 就 是 最 小 风险 贝 叶 斯 决策 。 

应 指出 ,最 小 风险 贝 叶 斯 决策 除了 要 符合 实际 情况 的 先 验 概率 P(wj) 及 类 条 件 概 率 密 
度 PCXIwj)) (Gj 二 1,2,…,m) 外 ,还 必须 要 有 适合 的 损失 函数 Alaiswi) (i 二 1,2,…*,a; j 二 1， 
2,…,m)。 实 际 工作 中 要 列 出 合适 的 决策 表 很 不 容易 ,往往 要 根据 研究 的 具体 问题 ,通过 分 
析 错 误 决 策 所 造成 的 损失 的 严重 程度 ,与 有 关 专 家 共同 商讨 来 确定 。 


2.3.2 最 小 错误 率 与 最 小 风险 的 贝 叶 斯 决策 比较 


错误 率 最 小 的 贝 叶 斯 决策 规则 与 风险 最 小 的 贝 叶 斯 决策 规则 有 着 某 种 联系 。 这 里 再 讨 
论 一 下 两 者 的 关系 。 首 先 设 损 失 抑 数 为 
0, i=j 
x 一 1 "= em (2-13) 
i 


式 中 ,假设 对 于 wm 类 只 有 wm 个 决策 , 即 不 考虑 “拒绝 ”的 情况 ,对 于 正确 决策 即 i=j ,Caiywi) 一 


0, 就 是 说 没有 损失 ; 对 于 任何 错误 决策 ,其 损失 为 1, 这 样 定义 的 损失 函数 称 为 0-1 损失 函 
数 。 此 时 条 件 风 险 为 


Ra | DD = DA) Pa |= 2 Pow |X), i= 1,2,,m (2-14) 


= j=1jz1 


式 中 ，》) PCw; | X) 表示 对 XX 采取 决策 w;( 此 时 wi; 就 相当 于 ai) 的 条 件 错误 概率 。 所 以 在 


j= jz 
采取 0-1 损失 函数 时 ,使 
Ra | X) = minP(a | X), i= 1,2,",m (2-15) 
得 最 小 风险 贝 叶 斯 决策 ,就 等 价 于 式 (2-16) 的 最 小 错误 率 贝 叶 斯 决策 。 
DB Pw [DB =nin 2 Pl | DD, i= 1,20m (2-16) 
j=1 ji j=1,jzi 


由 此 可 见 , 最 小 错误 率 贝 叶 斯 决策 就 是 在 采用 0-1 损失 函数 条 件 下 的 最 小 风险 贝 叶 斯 
决策 , 即 前 者 是 后 者 的 特例 。 


2.3.3” 贝 叶 斯 算法 的 计算 过 程 


(1) 输入 类 数 M ,特征 数 n, 待 分 样本 数 m。 

(2) 输入 训练 样本 数 N 和 训练 集 矩 阵 XCNX7z) ,并 计算 有 关 参 数 。 

(3) 计算 待 分 析 样 本 的 后 验 概率 。 

(4) 若 按 最 小 风险 原则 分 类 , 则 输入 各 值 ,计算 各 样本 属于 各 类 时 的 风险 并 判定 各 样本 
类 别 。 


2.3.4 最 小 风险 贝 叶 斯 分 类 的 MATLAB 实现 


1. 初始 化 
初始 化 程序 如 下 : 


名 输入 训练 样本 数 , 类 别 数 ,特征 数 ,以 及 属于 各 类 别 的 样本 个 数 
N=29;w=4;n=3;Nl =4;N2=7;N3= 8;N4=10; 


2. 参数 计算 
参数 计算 程序 如 下 : 


名 计算 每 一 类 训练 样本 的 均值 
X1 = mean(A')';X2 = mean(B')';X3= mean(C')';X4 = mean(D')'; 
当 求 每 一 类 样本 的 协 方差 矩阵 
S1 = cov(A');S2 = cov(B');S3 = cov(C');S4 = cov(D'); 
名 计算 协 方差 矩阵 的 逆 和 矩阵 
S1 =inv(S1);S2 = inv(S2);S3_= inv(S3);S4 = inv(S4); 


式 识 别 与 人 工 智能 (基于 MATLAB) 


和 计算 协 方差 矩阵 的 行列 式 
S11 = det(S1);S22 = det(S2);S33 = det(S3);S44 = det(S4); 
计算 训练 样本 的 先 验 概率 
Pwl = N1/N;Pw2 = N2/N; Pw3 = N3/N; Pw4 = NA/N; % Priori probability 
包 定 义 损失 函数 
loss = ones(4) - diag(diag(ones(4))); % define the riskloss function (4x 4) 
多 计算 后 验 概率 : 在 这 里 定义 了 一 个 循环 
for k=1:30 
Pl= -1/2* (sample(k,:)'— X1)'*S1 x*x (sample(k,:)'—X1) +1log(Pw1) —1/2*x1o0g(S11); 
P2= -1/2x (sample(k,:)'— X2)'x S2_* (sample(k,:)'—X2) +1og(Pw2) — 1/2* 10g(S22); 
P3= -1/2x (sample(k,:)'— X3)'* 5S3_ x (sample(k,:)'—X3) +1og(Pw3) - 1/2* 10g(S33); 
P4= -1/2x (sample(k,:)'— X4)'* S4_ x (sample(k,:)'—X4) +1og(Pw4) -1/2 * 1og(S44) ; 
计算 采取 决策 ui 所 带 来 的 风险 
riskl = loss(1,1) * Pl + loss(1,2) * P2+ loss(1,3) * P3+ loss(1,4) * P4; 
risk2 = loss(2,1) * Pl + loss(2,2) * P2 + loss(2,3) * P3+ loss(2,4) * P4; 
risk3= loss(3,1) * Pl + loss(3,2) * P2+ loss(3,3) * P3+ loss(3,4) x* P4; 
risk4 = loss(4,1) * Pl + loss(4,2) * P2+ loss(4,3) x* P3+ loss(4,4) * P4; 
risk= [riskl risk2 risk3 risk4] 
多 找 出 最 小 风险 值 


minriskloss =min(risk) % find the least riskloss 


3. 完整 程序 及 仿真 结果 
程序 代码 如 下 : 


minimum bayes risk classifier( 文 件 说 明 ) 

% 清空 工作 空间 及 命令 行 

clear; 

cles 

名 输入 训练 样本 数 ,类 别 数 ,特征 数 ,以 及 属于 各 类 别 的 样本 个 数 

N=29;w= 4;n= 3;N1= 4;N2=7;N3= 8;M= 10; 

输入 训练 样本 数据 :分 别 输入 1,2,3,4 类 的 矩阵 A, B,C,D 

A=[864.45 877.88 1418.79 1449.58 
1647.31 2031.66 1775.89 1641.58 
2665.9 3071.18 2772.9 3045.12]; %A belongs to wl 

B=[2352.12 2297.28 2092.62 2205.36 2949.16 2802.88 2063.54 
2557.04 3340.14 3177.21 3243.74 3244.44 3017.11 3199.76 
1411.53 535.62 584.32 1202.69 662.42 1984.98 1257.21]; %B belongs to w2 


C=[1739.94 1756.77 1803.58 1571.17 1845.59 1692.62 1680.67 1651.52 1675.15 


1652 1583.12 1731.04 1918.81 1867.5 1575.78 1713.28 2395.96 


1514.98 2163.05 1735.33 2226.49 2108.97 1725.1 1570.38]; %C belongs to w3 


D=[373.3 222.85 401.3 363.34 104.8 499.85 172.78 341.59 291.02 237.63 3087.05 


3059.54 3259.94 3477.95 3389.83 3305.75 3084.49 3076.62 3095.68 3077.78 
2429.47 2002.33 2150.98 2462.86 2421.83 3196.22 2328.65 2438.63 2088.95 


2251.96]; %D belongs to w4 
计算 每 一 类 训练 样本 的 均值 


X1 = mean(A')';X2 = mean(B')';X3= mean(C')';X4 = mean(D')'; 


# 求 每 一 类 样本 的 协 方差 矩阵 


S1 = cov(R');S2 = cov(B');S3 = cov(C');S4= cov(D'); 


外 计算 协 方差 矩阵 的 逆 邱 阵 


S1_= inv(S1);S2_ = inv(S2);S3_= inv(S3);S4_= inv(S4); 


外 计算 协 方差 矩阵 的 行列 式 


S11 = det(S1);S22 = det(S2);S33 = det(S3);S44 = det(S4); 


外 计算 训练 样本 的 先 验 概率 
Pwl = N1/N;Pw2 = N2/N;Pw3 = N3/N;Pw4 = NA/N; 


sample = [1702.8 
1877.93 
867.81 
1831.49 
460.69 
2374.98 
2271..89 
1783.64 
198.83 
1494.63 
1597.03 
1598.93 
1243.13 
2336.31 
354 
2144.47 
426.31 
1507.13 
343.07 
2201.94 
2232.43 
1580.1 
1962.4 
1495.18 
hb 
24.22 
1269.07 
1802.07 
1817.36 
1860.45 


1639, 
1860. 
2334. 
VIL3. 
3274. 
3346. 
3482. 
1597. 
3250. 
2072. 
1921. 
1921. 
1814. 
2640. 
3300. 
2501. 
3105. 
1556. 
3271. 
3196. 
3077. 
7525 
1594. 
1957. 
1594. 
3447. 
1910. 
1725. 
L927> 
1782. 


| 
96 
68 
11 
3 
98 
3 
99 
45 
59 
52 
08 
07 


88 


2068.74 
上 这 <] 
2535.1 
1604.68 
2172.99 
975.31 
946.7 
2261.31 
2445.08 
2550.51 
2126.76 
1623.33 
3441.07 
1599.63 
2373.61 
SHI 
2057.8 
1954.51 
2036.94 
935.53 
1298.87 
2463.04 
1835.95 
3498. 02 
2937.73 
2145.01 
2701.97 
1966.35 
2328.79 
1875>13]x 


$% Posterior probability as the following 


名 定义 损失 函数 


loss = ones(4) - diag(diag(ones(4))); 


plot(loss); grid on; 


xlabel( 'type') ;ylabel('Loss function value'); 
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$$ mean of training samples for 


$%S each category 


% covariance matrix of training 


% samples for each type 


外 inverse matrix of training samples 


$% for each type 
% determinant of covariance matrix 


SPriori probability 


% define the riskloss function (4x 4) 


名 计算 后 验 概率 : 在 这 里 定义 了 一 个 循环 

for k=1:30 

P1= -1/2* (sample(k,:)'— X1)'* S81 * (sample(k,:)'—X1) +1log(Pw1) -1/2x 1o0g(S11); 
P2= -1/2*x (sample(k, :)'— X2)'* S2_ x (sample(k, :)'— X2) +1log(Pw2) - 1/2 * 10g(S22); 
Pp3= -1/2* (sample(k, :)'— Xx3)'* 83 * (sample(k,:)'—X3) +1og(Pw3) - 1/2 * 10g(S33); 
P4= -1/2* (sample(k,:)'— xX4)'* S84 * (sample(k,:)'—X4) +1og(Pw4) - 1/2 * 1og(S44) ; 
名 计算 采取 决策 a 所 带 来 的 风险 

riskl = loss(1,1) * Pl + loss(1,2) * P2+ loss(1,3) * P3+ loss(1,4) * P4; 

risk2 = loss(2,1) * Pl + loss(2,2) * P2 + loss(2,3) * P3+ loss(2,4) x* P4; 

risk3 = loss(3,1) * Pl + loss(3,2) * P2 + loss(3,3) * P3+ loss(3,4) * P4; 

risk4 = loss(4,1) * Pl + loss(4,2) * P2 + loss(4,3) x P3+ loss(4,4) * P4; 

risk= [riskl risk2 risk3 risk4] 


# 找 出 最 小 风险 值 
minriskloss =min(risk) $find the least riskloss 
外 返回 测试 样本 的 所 属 类 别 


% return the category of the least riskloss as following 
if riskl == min(risk) 
w=1 
elseif risk2==min(risk) 
w=2 
elseif risk3 ==min(risk) 
w=3 
elseif risk4 == min(risk) 
w=4 
else 
return 
end 
end 


运行 程序 得 到 的 损失 函数 的 矩阵 为 : 


loss = 


PP PP PP 口 
PP PP 口上 
-orp 
ocrpp 


得 到 如 表 2-3 所 示 的 贝 叶 斯 决策 表 。 
表 2-3 贝 叶 斯 决策 表 


类 别 
决 策 
wi w ws wh 
a 0 . 1 ly 
a 1 0 1 1 
oa 1 1 0 1 
a . 1 1 0 


损失 函数 的 函数 图 界面 如 图 2-3 所 示 。 


2-3 损失 函数 的 函数 图 界面 
继续 运行 程序 ,MATLAB 命令 窗口 显示 的 结果 如 下 : 


CZ8)、 模式 识别 与 人 工 备 能 (基于 MATLAB 


minriskloss = 

-232.7225 

Ww = 

二 

risk = 

一 242.2520 一 258.9318 一 274.4652 一 103.1823 
minriskloss = 

一 274.4652 


[WE 


运行 程序 得 到 的 结果 整理 如 表 2-4 所 示 。 
表 2-4 待 测 样本 分 类 表 


待 测 样本 特征 人 Re St 最 小 风险 | 所属 类 别 
1702.8 1639.79 2068. 74 | 一 225. S5967| 一 222. 5860| 一 243.6736| 一 89. 1876| 一 243. 6736| 
1877.93 | 1860. 96 1975.3 | 一 236. 9281| 一 254. 4333| 一 267. 3770 一 100. 7884 一 267. 3770| 

867.81 | 2334. 68 2535. 1 一 191. 6357| 一 187. 3309| 一 118. 3493| 一 175. 2054 一 191. 6357| 
1881.49 | 1713. 11 1604. 68 | 一 251.7846| 一 276. 6121| 一 294. 2996| 一 117. 2393| 一 294. 2996| 

460. 69 | 3274. 77 2172. 99 | 一 306.7751| 一 371. 4747| 一 169. 8384 一 395. 3304 一 395. 3304| 
2374.98 | 3346. 98 一 527. 6450| 一 831. 3965|—658. 2358| 一 535. 0288| 一 831. 3965| 
2271. 89 | 3482. 97 一 516. 1409| 一 840. 0497| 一 662. 7313 一 561.7078| 一 840. 0497| 
1783. 64 | 1597. 99 一 238. 2212| 一 229. 1473| 一 249. 5309| 一 84. 3845| 一 249. 5309| 


198. 83 | 3250. 45 一 384. 1623| 一 417. 6881 一 152. 1706 一 451. 3320 一 451. 3320| 
1494. 63 | 2072. 59 一 173. 2143 一 171. 0473 一 173. 6852 一 90. 6773 一 173. 6852| 
1597.03 | 1921. 52 一 190. 2958| 一 197. 7363| 一 210. 8427| 一 91. 9974| 一 210. 8427| 


1598.93 | 1921.08 
1243.13 | 1814.07 
2336. 31 | 2640. 26 


一 201. 1543| 一 233. 5756—247. 6003| 一 117. 9971 一 247. 6003| 
一 219. 8759| 一 200. 7782 一 173. 5703| 一 134. 8556| 一 219. 8759| 
一 375. 2066| 一 505. 3220| 一 432. 9655| 一 264. 1726| 一 505. 3220| 
354 3300. 12 342. 0554 一 389. 9420 一 159. 5456| 一 420. 4420| 一 420. 4420| 
2144.47 | 2501. 62 391. 7323| 一 602. 1676| 一 534. 2673| 一 353. 3480| 602. 1676| 
426.31 | 3105.29 | 2057.8 292. 8245| 一 350. 3599|—158. 4555|—372. 8588| 一 372. 8588| 
1507.13 | 1556. 89 1954. 51 215. 8337| 一 208. 6549| 一 228. 7517| 一 97. 1952| 一 228. 7517| 
343.07 | 3271. 72 331.3153| 一 401. 5729| 一 176. 3704| 一 427. 3639| 一 427. 3639| 
2201.94 | 3196. 22 935. 53 444. 7721| 一 718. 8749| 一 585. 7638| 一 464. 5642 一 718. 8749| 
2232. 43 | 3077. 87 1298. 87 404. 5625| 一 617. 0008| 一 507. 0459| 一 379. 8982 一 617. 0008| 
1580. 1 1752.07 | 2463. 04 200. 0040| 一 188. 5023| 一 202. 9287| 一 82. 0465| 一 202. 9287| 
1962. 4 1594. 97 1835. 95 280. 3708| 一 289. 5207| 一 305. 2451 一 108. 2437| 一 305. 2451| 
1495.18 | 1957.44 | 3498.02 201. 1284 一 185. 7029| 一 178. 9540 一 105. 8759 一 201. 1284| 
1125.17 | 1594. 39 | 2937. 73 229. 6958| 一 204. 2460| 一 176. 7869| 一 136. 2208| 一 229. 6958| 
24. 22 | 3447. 31 2145. 01 454. 8835| 一 518. 7193| 一 193. 0544 一 551. 2891—551. 2891| 
1269.07 | 1910.72 | 2701. 97 182. 6951| 一 166. 4209| 一 156. 1743| 一 104. 4475| 一 182. 6951| 
1802. 234. 1143 一 241. 7993 一 260. 4340| 一 95. 1993| 一 182. 6951 
1817. 3 214. 3639| 一 219. 7679| 一 232. 7225| 一 85. 5928| 232. 7225| 
1860. 242. 2520| 一 25S8. 9318| 一 274. 4652| 一 274. 4652| 一 274. 4652| 


由 | 四 | 由 | 二 | 二 | 亚 | 亚 | 由 | 四 | 二 | 四 | 下 二 | 一 | 四 | 四 | 四 | 二 | 四 二 | 辐 | 王 |w 


模式 识别 与 人 工 智能 (基于 MATLAB) 


对 比 正确 分 类 后 发 现 , 存 在 一 组 数据 (1494. 63,2072. 59,2550. 51) 与 正确 分 类 有 出 入 ， 


用 上 述 方法 得 到 结果 


属于 类 别 3, 而 正确 的 分 类 结果 是 属于 类 别 1。 这 可 能 是 基于 最 小 风险 


贝 叶 斯 分 类 的 分 类 方法 存在 误差 所 导致 的 。 
反 过 来 验证 分 类 结果 的 正确 性 。 首 先 修改 MATLAB 循环 语句 的 循环 次 数 与 后 验 概率 
的 输入 向 量 ,程序 代码 如 下 : 


for k=1:29 


P1= -1/2*x (pattern(k, :)'— X1)'xS1 * (pattern(k,:)'— X1) +log(Pw1) -1/2* 10g(S11); 
P2= -1/2*x (pattern(k, :)'— X2)'* S2_ * (pattern(k, :)'— X2) + log(Pw2) - 1/2x 10g(S22); 
P3= -1/2*x (pattern(k, :)'— X3)'*S3_ * (pattern(k, :)'— X3) + log(Pw3) - 1/2x 10g(S33); 
P4= -1/2*x (pattern(k, :)'— X4)'*S4_ * (pattern(k,:)'— X4) + log(Pw4) - 1/2 * lo0g(S44); 


执行 程序 后 MATLAB 命令 窗口 将 显示 结果 ,摘录 其 中 一 部 分 如 下 : 


risk = 


=223:2045 ”一 213.1886 -=231.9085 ”一 80.3811 


minriskloss = 
= 231.9085 

Ww = 

3 

risk = 


-315.:9476 =345,1539 =136:7143 一 373.5723 


minriskloss = 
-373.3723 

WwW = 

4 

risk = 


一 246.9909 -270.3278 -291.5826 一 119.2448 


minriskloss = 
一 291.5826 
w= 

3 

risk = 


一 241.1256 -213.7000 -157.3226 一 168.3969 


minriskloss = 
-241.1256 
w= 


这 与 训练 样本 的 


分 类 结果 是 完全 吻合 的 。 


2.3.5， 闭 论 


以 贝 叶 斯 决策 为 核心 内 容 的 统计 决策 理论 是 统计 模式 识别 的 重要 基础 ,理论 上 该 分 类 
理论 就 有 最 优 性 能 , 即 分 类 错误 或 风险 在 所 有 分 类 器 中 是 最 小 的 , 常 可 以 作为 衡量 其 他 分 类 
器 设计 方法 的 优 劣 标准 。 

但 是 该 方法 明显 的 局 限 在 于 : 需要 已 知 类 别 数 以 及 各 类 别 的 先 验 概率 和 类 条 件 概率 密 
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度 。 也 就 是 说 ,要 分 两 步 来 解决 模式 识别 问题 一 一 先 根据 训练 样本 设计 分 类 器 ,接着 对 测试 
样本 进行 分 类 。 因 此 ,有 必要 研究 直接 从 测试 样本 出 发 设计 分 类 器 的 其 他 方法 。 


(1) 什么 是 最 小 错误 率 贝 叶 斯 决策 ? 
(2) 什么 是 最 小 风险 贝 叶 斯 决策 ? 
(3) 最 小 错误 率 贝 叶 斯 决策 与 最 小 风险 贝 叶 斯 决策 的 区 别 是 什么 ? 


判别 函数 是 统计 模式 识别 中 用 以 对 模式 进行 分 类 的 一 种 较 简单 的 函数 。 在 特征 空间 
中 ,通过 学 习 , 不 同 的 类 别 可 以 得 到 不 同 的 判别 函数 ,比较 不 同类 别 的 判别 函数 值 的 大 小 ,就 
可 以 进行 分 类 。 统 计 模式 识别 方法 把 特征 空间 划分 为 决策 区 对 模式 进行 分 类 ,一 个 模式 类 
同一 个 或 几 个 决策 区 相对 应 。 

设 有 个 类 别 , 对 于 每 一 个 类 别 w.(i 二 1,2,…,c) 定 义 一 个 关于 特征 向 量 六 的 单 值 函 数 
gi(XX): 如 果 关 属于 第 i 类 ,那么 gi(X) 二 gj;(X)(i,j 二 1,2,…,c,j 关 让 ; 加 如 果 X 在 第 ; 
类 和 第 j 类 的 分 界面 上 ,那么 gi(X) 二 gj(X)(i,j 二 1,2,** ,cj 才 让 。 

人 们 已 研究 出 多 种 求 取决 策 边界 的 算法 ,线性 判别 函数 的 决策 边界 是 一 个 超 平面 方程 
式 , 其 中 的 系数 可 以 从 已 知 类 别 的 学 习 样 本 集 求 得 。F. 罗 森 布 拉 特 的 错误 修正 训练 程序 是 
求 取 两 类 线性 可 分 分 类 器 决策 边界 的 早期 方法 之 一 。 在 用 线性 判别 函数 不 可 能 对 所 有 学 习 
样本 正确 分 类 的 情况 下 ,可 以 规定 一 个 准则 函数 (例如 对 学 习 样本 的 错 分 数 最 少 ) 并 用 使 准 
则 函数 达到 最 优 的 算法 求 取 决策 边界 。 用 线性 判别 函数 的 模式 分 类 器 也 称 为 线性 分 类 器 或 
线性 机 ,这 种 分 类 器 计算 简单 ,不 要 求 估 计 特征 向 量 的 类 条 件 概 率 密度 ,是 一 种 非 参 数 分 类 
方法 。 

当 用 贝 叶 斯 决策 理论 进行 分 类 器 设计 时 ,在 一 定 的 假设 下 也 可 以 得 到 线性 判别 函数 ,这 
无 论 对 于 线性 可 分 或 线性 不 可 分 的 情况 都 是 适用 的 。 在 问题 比较 复杂 的 情况 下 可 以 用 多 段 
线性 判别 函数 ( 见 近邻 法 分 类 、 最 小 距离 分 类 ) 或 多 项 式 判 别 函 数 对 模式 进行 分 类 。 一 个 二 
阶 的 多 项 式 判 别 函数 可 以 表示 为 与 它 相 应 的 决策 边界 是 一 个 超 二 次 曲面 。 

本 章 介绍 线性 判别 函数 和 非 线性 判别 函数 ,用 以 对 酒 瓶 的 颜色 进行 分 类 ,其 中 实现 线性 
判别 函数 分 类 的 方法 有 LMSE 分 类 算法 和 Fisher 分 类 ,实现 非 线性 判别 函数 分 类 的 方法 有 
基于 核 的 Fisher 分 类 和 支持 向 量 机 。 
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线性 判别 函数 


判别 函数 分 为 线性 判别 函数 和 非 线性 判别 函数 。 最 简单 的 判别 函数 是 线性 判别 函数 ， 
它 是 由 所 有 特征 量 的 线性 组 合 构成 的 。 我 们 现在 对 两 类 问题 和 多 类 问题 分 别 进行 讨论 。 


1. 两 类 问题 


对 于 两 类 问题 ,也 就 是 Wi= (wi,ws)"。 

1) 二 维 情况 

取 二 维特 征 向 量 半 二 (zxi ,x2)" ,这 种 情况 下 的 判别 函数 g(z) 三 wizi 十 wzxz 十 ws, 其 中 ， 
wil(i 二 1,2,3) 为 参数 ; zx! 和 zz 为 坐标 值 ,判别 函数 g(x) 具 有 以 下 性 质 : 当 xEw 时 ,gi(x) 二 
0; 当 zEows 时 ,gi(z) 二 0; 当 工 不 定时 ,si(Cz) 一 0。 这 是 二 维 情况 下 由 判别 边界 分 类 。 

2) 7 维 情 况 

对 于 维 情 况 , 现 抽取 维特 征 向 量 : X=(ziyzz，…'zo) 判别 函数 为 g(x) 二 WoXX 十 
wrt1。 其 中 ,Wo 三 (oryws，… ws)" 为 权 向 量 ; 和 = (zi ,zs，… ,x,)" 为 模式 向 量 。 另 外 一 种 
表示 方法 是 g(7)=W'X, 其 中 ,W= (wi 9002 300 ns nt) 为 增值 权 向 量 ; = (qrpiss 
zs，1)" 为 增值 模式 向 量 。 

在 这 种 情况 下 , 当 zEw 时 ,g(z)>>0; 当 zEows 时 ,5g(Cz)<0; g1(x) 二 0 为 边界 , 当 
7 一 2 时 ,边界 为 一 条 直线 , 当 ? 一 3 时 ,边界 为 一 个 平面 , 当 n>3 时 ,边界 为 超 平面 。 


2. 多 类 问题 


对 于 多 类 问题 ,模式 有 wi ,wz，… ,ww 个 类 别 , 可 以 分 为 下 面 三 种 情况 。 

1) 第 一 种 情况 

每 个 模式 类 与 其 他 模式 可 用 单个 判别 平面 分 开 , 这 时 M 个 类 有 M 个 判别 函数 , 且 具 有 
性 质 

Si(z) = WIX (3-1) 

式 中 ,Wi 二 (waywwz… ,wint1)"” 为 第 i 个 判别 函数 的 权 向 量 。 当 x Ewi 时 ,sgiCz) 二 0, 其 他 情 
况 下 gi(z) 过 0, 也 就 是 每 一 个 类 别 可 以 用 单个 判别 边界 与 其 他 类 别 相 分 开 。 

2) 第 二 种 情况 

M(M—1) 


每 个 模式 类 和 其 他 模式 类 之 间 可 以 用 判别 平面 分 开 , 这 样 就 有 一 -5 一 一 个 平面 ,对 于 


两 类 问题 ,M==2, 则 有 1 个 判别 平面 , 同 理 对 于 三 类 问题 ,就 有 3 个 判别 平面 。 判 别 函 数 为 
gs(7) = WIX (3-27 
式 中 ,i 去 7 ,判别 边界 为 gj (zx) 二 0, 条 件 为 : 当 zEw 时 ,sr5(z) 二 0; 当 zxEwj 时 ,gy(7)<=0。 
3) 第 三 种 情况 
每 类 都 有 一 个 判别 函数 ,存在 M 个 判别 函数 : gi(z) 二 WiX(k 二 1,2,…,M), 边 界 为 
gi(X) 二 gj(X) ,条件 为 : 当 zEw 时 ,gi;(zx) 最 大 ; 其 他 情况 下 g;(z) 小 。 也 就 是 说 ,要 判别 
和 属于 哪 一 个 类 , 先 把 和 代入 M 个 判别 函数 ,判别 函数 最 大 的 那个 类 就 是 所属 类 别 。 


线性 判别 函数 的 实现 


对 于 给 定 的 样本 集 X, 要 确定 线性 判别 函数 g(z) 二 W xz 十 wo 的 各 项 系数 W 和 wo, 可 以 
通过 以 下 步骤 来 实现 : 

@ 收集 一 组 具有 类 别 标志 的 样本 X 一 {ziyzz，…zNj}s 

四 按照 需要 确定 准则 函数 J; 

@ 用 最 优化 技术 求 准则 函数 j 的 极 值 解 w” 和 wo ,从 而 确定 判别 函数 ,完成 分 类 器 的 
设计 。 

对 于 未 知 样本 ,计算 g(x) ,判断 其 类 别 。 即 对 于 一 个 线性 判别 函数 ,主要 任务 是 确定 
线性 方程 的 两 个 参数 ,一 个 是 权 向 量 妈 , 另 一 个 是 冰 值 wo。 

在 计算 机 中 想 要 实现 线性 判别 函数 ,可 以 通过 “训练 "和 “学 习 ” 的 方式 ,将 已 知 样本 放 入 
到 计算 机 的 “训练 "程序 ,经 过 多 次 迭代 ,从 而 得 到 准确 函数 。 

下 面具 体 介绍 各 种 分 类 器 的 设计 。 


基于 LMSE 的 分 类 器 设计 


3.4.1 LMSE 分 类 法 简介 


LMSE 是 Least Mean Square Error 的 英文 缩写 ,中 文 的 意思 是 最 小 均 方 误差 , 常 称 作 
LMSE 算法 。 

提 到 LMSE 分 类 算法 就 不 能 不 提 感 知 器 算法 和 自 适 应 算法 ,因为 LMSE 算法 本 身 就 是 
自 适应 算法 中 最 常用 的 方法 ,而 感知 器 和 自 适 应 线性 元 件 在 历史 上 几乎 是 同时 提出 的 ,并 且 
两 者 在 对 权 值 的 调整 的 算法 非常 相似 ,它们 都 是 基于 纠 错 学 习 规则 的 学 习 算法 。 感 知 器 算 
法 存在 如 下 问题 ; 不 能 推广 到 一 般 的 前 向 网 络 中 ; 函数 不 是 线性 可 分 时 ,得 不 出 任何 结果 。 
而 由 美国 斯 坦 福 大 学 的 Widrow-Hoff 在 研究 自 适 应 理论 时 提出 的 LMSE 算法 ,由 于 其 易 实 
现 因而 很 快 得 到 了 广泛 应 用 ,成 为 自 适应 滤波 的 标准 算法 。 下 面 介 绍 自 适应 过 程 。 

自 适 应 过 程 是 一 个 不 断 逼 近 目 标的 过 程 。 它 所 遵循 的 途径 以 数学 模型 表示 , 称 为 自 适 
应 算法 。 通 常 采用 基于 梯度 的 算法 ,其 中 LMSE 算法 尤为 常用 。 自 适应 算法 可 以 用 硬件 
(处 理 电 路 ) 或 软件 (程序 控制 ) 两 种 办 法 实现 。 前 者 依据 算法 的 数学 模型 设计 电路 ,后 者 则 
将 算法 的 数学 模型 编制 成 程序 并 用 计算 机 实现 。 算 法 有 很 多 种 ,选择 算法 很 重要 , 它 决定 了 
处 理 系统 的 性 能 质量 和 可 行 性 。 

自 适 应 均衡 器 的 原理 就 是 按照 某 种 准则 和 算法 对 其 系数 进行 调整 ,最 终 使 自 适应 均衡 
器 的 代价 (目标 ) 函 数 最 小 化 ,达到 最 佳 均衡 的 目的 。 而 各 种 调整 系数 的 算法 就 称 为 自 适应 
算法 , 自 适应 算法 是 根据 某 个 最 优 准 则 来 设计 的 。 最 常用 的 自 适应 算法 有 到 零 算法 、 最 陡 下 
降 算法 .LMSE 算法 .RLS 算法 以 及 各 种 盲 均衡 算法 等 。 
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自 适 应 算法 所 采用 的 最 优 准 则 有 最 小 均 方 误差 准则 .最 小 二 乘 准则 、 最 大 信 噪 比 准则 和 
统计 检测 准则 等 ,其 中 最 小 均 方 误差 准则 和 最 小 二 乘 准 则 是 目前 最 为 流行 的 自 适 应 算法 准 
则 。LMSE 算法 和 RLS 算法 由 于 采用 的 最 优 准 则 不 同 ,因此 这 两 种 算法 在 性 能 、 复 杂 度 等 
方面 均 有 许多 差别 。 

一 种 算法 性 能 的 好 坏 可 以 通过 几 个 常用 的 指标 来 衡量 ,例如 收敛 速度 一 一 通常 用 算法 
达到 稳定 状态 ( 即 与 最 优 值 的 接近 程度 达到 一 定 值 ) 的 迭代 次 数 表示 ; 误 调 比 一 一 实际 均 方 
误差 相对 于 算法 的 最 小 均 方 误差 的 平均 偏差 ; 运算 复杂 度 一 一 完成 一 次 完整 迭代 所 需 的 运 
算 次 数 ; 跟踪 性 能 一 一 对 信道 时 变 统计 特性 的 自 适应 能 力 。 


3.4.2 LMSE 算法 原理 


LMSE 算法 是 针对 准则 函数 引进 最 小 均 方 误差 这 一 条 件 而 建立 起 来 的 。 这 种 算法 的 
主要 特点 是 在 训练 过 程 中 判定 训练 集 是 否 线性 可 分 ,从 而 可 对 结果 的 收敛 性 做 出 判断 。 

LMSE 算法 属于 监督 学 习 的 类 型 ,而 且 是 “模型 无 关 ” 的 , 它 是 通过 最 小 化 输出 和 期 望 
目标 值 之 间 的 偏差 来 实现 的 。 

LMSE 算法 属于 自 适 应 算法 中 常用 的 算法 , 它 不 同 于 C 均值 算法 和 ISODATA 算法 ， 
后 两 种 属于 基于 距离 度量 的 算法 ,直观 且 容 易 理 解 。LMSE 算法 通过 调整 权 值 函数 求 出 判 
别 函 数 , 进 而 将 待 测 样本 代入 判别 函数 求 值 ,最 终 做 出 判定 ,得 出 答案 。 


1. 准则 函数 
LMSE 算法 以 最 小 均 方差 作为 准则 , 因 均 方差 为 
E{[ri(X) —WIX]J’} (3-3) 
因而 准则 函数 为 
J(Wi,X) = EE(Ln CX) — WIXJ} (3-4) 
准则 函数 在 ri(X) 一 WIX 三 0 时 取得 最 小 值 。 准 则 函数 对 Wi 的 偏 导数 为 
= E{— X[ri(X) —wIX]) (3-5) 
2. 和 迭代 方程 
将 式 (3-5) 代 入 迭代 方程 ,得 到 
Witk 1) = Wi tariILr tn) — WI (3-6) 


对 于 多 类 问题 来 说 ,M 类 问题 应 该 有 M 个 权 函 数 方程 ,而 对 于 每 一 个 权 函 数 方程 来 说 ， 
如 XC)Eowi, 则 
ri[X(k)] =1, i=1,2,.…,M (3-7) 
否则 
riLX(k)] =0, i=1,2,.…,M (3-8) 


3.4.3 ”LMSE 算法 步骤 


(1) 设 各 个 权 向 量 的 初始 值 为 0, 即 Wo(0) 二 Wi(0) 二 Ws(0) 二 … 一 Wu(0) 二 0。 


(2) 输入 第 & 次 样本 X(CA) ,计算 di(k) 二 Wi (Rk)X(k)。 
(3) 确定 期 望 输出 函数 值 : 若 关 (k) Ewi, 则 ri[X(k)] 二 1, 否 则 ri[X(k)]==0。 


(4) 计算 和 迭代 方程 : Wi(k 十 1) 二 Wi(k) 十 qx (k)[Lri( 半 ) 一 WY (Rk)X(R)] ,其 中 而 上 上 


ke® 


(5) 循环 执行 步骤 (2) ,直到 满足 条 件 : 属于 ww 类 的 所 有 样本 都 满足 不 等 式 d;(X) 二 


di;(X), VjAi, 


3.4.4 LMSE 算法 的 MATLAB 实现 


1. 首先 给 定 四 类 样本 ,各 样本 的 特征 向 量 经 过 增 1 


程序 如 下 : 


pattern = struct('feature', []) 


pl = [864.45 
877.88 
1418.79 
1449.58 
864.45 
877.88 
1418.79 
1449.58 
1418.79 
1449.58 


1647. 
2031. 
全 
1641. 
1647. 
2031. 
及 人 局 
1641. 
ET 
1641. 
pattern(1).feature= pl' 


31 
66 
89 
58 
31 
66 
89 
58 
89 
58 


2665.9; 
3071. 18; 
2772.9; 
3405. 12; 
2665.9; 
3071.18; 
2772.9; 
3405. 12; 
2772.9; 
3405.12;] 


pattern(1).feature(4,:)=1 


pattern(1). feature 实际 的 矩阵 形式 如 下 : 


pl1 = 
1.0e+03 * 

.8645 
.8779 
.4188 
.4496 
.8645 
.8779 
.4188 
.4496 
.4188 
.4496 


口 


-rrroorro 


PpPpPpPO PPPDP 


.6473 
.0317 
"7759 
.6416 
.6473 
0317 
"7759 
.6416 
.7759 
.6416 


.6659 
.0712 
,7729 
.4051 
.6659 
.0712 
.7729 
.4051 
.7729 
.4051 


wbwbwbwmbwn 


之 后 的 三 类 ,程序 如 下 : 


p2 = [2352.12 

2297.28 3340. 
2092.62 3177. 
2205.36 3243. 
2949.16 3244. 
2802.88 3017. 
2063.54 31995 


2557.04 1411.53; 
To 
21 584.32; 


1202.69; 


44 662.42; 


1984.98; 
1257.21; 


2. 设 权 值 向 量 的 初始 值 均 为 0 
初始 化 权 值 程序 代码 如 下 ， 


MATLAB 程序 运行 结果 如 下 : 


3. 计算 di(k) 
程序 代码 如 下 : 


从 


MATLAB 程序 运行 结果 如 下 。 
第 一 次 循环 结果 : 
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最 后 一 次 运行 结果 : 


4. 调整 权 值 
程序 代码 如 下 : 


MATLAB 程序 运行 结果 如 下 : 


5. 通过 判别 函数 将 待 分 类 数据 分 类 


调用 function 函数 ,将 待 测 数据 分 类 。 因 为 调用 该 函数 一 次 只 能 判别 一 个 样品 的 类 别 ， 
所 以 循环 30 次 才能 完成 分 类 ,程序 代码 如 下 : 


运行 MATLAB 程序 ,最 终 的 分 类 结果 如 下 : 


将 该 分 类 结果 与 原始 分 类 结果 对 比 ,对 照 表 如 表 3-1 所 示 。 
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表 3-1 LMSE 分 类 结果 与 原始 分 类 结果 对 照 表 


号 A B C 原始 分 类 结果 LMSE 分 类 结 
1 2068. 74 3 3 
2 1975.3 3 3 
3 2535, 1 ' 
4 1604. 68 3 
5 4 4 
6 2 交 
7 2 2 
8 3 3 
9 4 4 
10 1 时 
11 3 
12 3 
13 1 1 
14 2 2 
15 4 4 
16 2 2 
17 4 4 
18 和 3 
19 4 4 
20 
21 
22 3 1 
23 3 3 
24 1 1 
1 1 
4 4 
1 1 
3 3 
29 3 3 
30 1860. 45 1782. 88 3 3 


结果 分 析 : 从 表 3-1 中 可 以 看 出 有 2 个 分 类 结果 是 错 的 ,正确 率 为 


6. 用 三 维 效果 图 将 结果 直观 显示 


将 分 好 类 的 数据 用 图 像 的 形式 直观 显示 出 来 ,程序 代码 如 下 : 
axis([0 3500 0 3500 0 3500]) 
Ey==1 
plot3(x, yy, z, 'g* ); # 第 一 类 表示 为 绿色 
elseif y==2 
plot3(x, yy,z, 'r* ') 第 二 类 表示 为 红色 


elseif y==3 


plot3(x, yy, z, bx ') 名 第 三 类 表示 为 蓝 色 
elseif y== 
plot3(x, yy, z, 'y* ') 名 第 四 类 表示 为 黄色 
end 
hold on 


运行 MATLAB 程序 ,三 维 效果 图 如 图 3-1 所 示 。 


文件 (志和 日。 要 看 V) 插入 们 “工具 (点 面 (D) 


四 NO ET WH) 
EET FI EY Pa Wi: 


3500 # 


3000 二 


图 3-1 LMSE 算 法 分 类 结果 三 维 效果 图 


7. 完整 的 MATLAB 程序 
完整 的 MATLAB 程序 代码 如 下 : 


# 主 程序 
名 输入 数据 
clear all 
close all 
wle 
sl = xlsread('C:\Users\Administrator\Desktop\ln. xls') 
samp = s1(30:59,1:3) 
sampletotall = samp' 
ac=[] 
fork=1:30 
sample = sampletotal1( :,k) 
y= lmseclassify(sample) 
x= sample(1) 


名 从 Excel 表格 直接 读 人 数据 
名 后 30 个 数据 

名 转 置 

名 定义 分 类 和 矩阵 


外 调用 function 函数 


第 3 章 “判别 函数 分 类 器 设计 


YY= sample(2) 


z= sample(3) 
ac(k) = 了 
axis([0 3500 0 3500 0 3500]) 
if y==1 
plot3(x, yy,z, 'g* ') 名 第 一 类 用 绿色 表示 
elseif y E 
plot3(x, yy,z, 'r* ') 名 第 二 类 用 红色 表示 
elseif y== 
plot3(x, yy,z, "bx ') 名 第 三 类 用 蓝 色 表 示 
elseif y== 
plot3(x, yy,z, 'y* ') 名 第 四 类 用 黄色 表示 
end 
hold on 
end 


多 利用 LMSE 算法 进行 分 类 的 function 函数 
function y= lmseclassify( sample) 
ee 
pattern = struct( 'feature', []) 
= 叶 
864.45 1647.31 2665.9; 
877.88 2031.66 3071.18; 
1418.79 L775.89 2772,93 
1449.58 1641.58 3405.12; 
864.45 1647.31 2665.9; 
877.88 2031.66 3071.18; 
1418.79 T77589) 2772.93 
1449.58 L641.58 3405,12; 
1418.79 T77589 27722957 
1449.58 1641.58 3405.12;] 
pattern(1). feature= pl' 
pattern(1). feature(4,:)=1 
p2=[2352.12 2557.04 1411.53; 
2297.28 3340.14 535.62; 
2092,62. 3177.21 584.327 
2205.36 3243.74 1202.69; 
2949.16 3244.44 662.42; 
2802.88 3017.11 1984.98; 
2063.54 3199,76 1257.21; 
2949.16 3244.44 662.42; 
2802.88 3017.11 1984.98; 
2063.54 3199.76 1257.21;] 
pattern(2). feature = p2' 
pattern(2). feature(4,:)=1 
p3= [1739.94 1675,15 2395.96; 
1756.77 1652 1514.98; 
1803.58 1583.12 2163.05; 
SIU IT TI25033> 
1845.59 1918.81 2226.49; 


3.4.5 结论 


学 习 样本 的 维 数 问题 : 

因为 样本 类 别 不 均匀 (第 一 类 4 个 样本 ,第 二 类 8 个 样本 ,第 三 类 9 个 样本 ,第 四 类 
10 个 样本 ) ,程序 不 运行 ,后 来 将 数据 重复 添加 进去 ,保证 了 程序 的 正常 运行 。 程 序 相 关 部 
分 代码 如 下 : 


注意 : 其 中 864. 45 1647. 31 2665. 9; 877. 88 2031.66 ”3071. 18，1418. 79 
1775. 89 2772.9; 1449.58 1641.58 3405.12; 1418.79 1775.89 2772.9; 1449.58 
1641. 58 3405. 12 是 重复 添加 的 样本 数据 ,目的 是 凑 够 10 个 数据 以 便 程 序 能 进行 循环 。 


基于 Fisher 的 分 类 器 设计 


3.5.1 Fisher 判别 法 简介 


Fisher 判别 法 是 1936 年 由 R. A. Fisher 首先 提出 的 。Fisher 判别 法 是 一 种 线性 判别 
法 ,线性 判别 又 称 线性 准则 。 与 线性 准则 相对 应 的 还 有 非 线 性 准则 ,其 中 一 些 在 变换 条 件 下 
可 以 转化 为 线性 准则 ,因此 对 应 于 d 维特 征 空 间 , 线 性 判别 函数 虽然 最 简单 ,但 是 在 应 用 上 
却 具有 普遍 意义 ,便于 对 分 类 问题 的 理解 与 描述 。 

基于 线性 判别 函数 的 线性 分 类 方法 ,虽然 使 用 有 限 样本 集合 来 构造 ,从 严格 意义 上 来 讲 
属于 统计 分 类 方法 。 也 就 是 说 ,对 于 线性 分 类 器 的 检验 ,应 建立 在 样本 扩充 的 条 件 下 ,以 基 
于 概率 的 尺度 来 评价 才 是 有 效 的 评价 。 尽 管线 性 分 类 器 的 设计 在 满足 统计 学 的 评价 下 并 不 
严格 与 完美 ,但 是 由 于 其 具有 的 简单 性 与 实用 性 ,在 分 类 器 设计 中 还 是 获得 了 广泛 的 应 用 。 


3.5.2 Fisher 判别 法 的 原理 


设计 线性 分 类 器 首先 要 确定 准则 函数 ,然后 青 利用 训练 样本 集 确定 该 分 类 器 的 参数 ,以 
求 使 所 确定 的 准则 达到 最 佳 。 在 使 用 线性 分 类 器 时 ,样本 的 分 类 由 其 判别 函数 值 决定 ,而 每 
个 样本 的 判别 函数 值 是 其 各 分 量 的 线性 加 权 和 再 加 上 一 个 冰 值 y。。 

如 果 只 考虑 各 分 量 的 线性 加 权 和 , 则 它 是 各 样本 向 量 与 向 量 w 的 向 量 点 积 。 如 果 向 量 
w 的 幅度 为 单位 长 度 , 则 线性 加 权 和 又 可 被 看 作 各 样本 向 量 在 向 量 w 上 的 投影 。 

Fisher 判别 法 的 基本 原理 是 ,对 于 d 维 空间 的 样本 ， 
投影 到 一 维 坐标 上 ,样本 特征 将 混杂 在 一 起 ,难以 区 分 。 
Fisher 判别 法 的 目的 ,就 是 要 找到 一 个 最 合适 的 投影 轴 
w， 使 两 类 样本 在 该 轴 上 投影 的 交友 部 分 最 少 ,从 而 使 分 类 
效果 为 最 佳 。 如 何 寻找 一 个 投影 方向 ,使 得 样本 集合 在 该 
投影 方向 上 最 易 区 分 ,这 就 是 Fisher 判别 法 所 要 解决 的 
问题 。Fisher 投影 原理 如 图 3-2 所 示 。 图 3-2 ”Fisher 投影 原理 图 

Fisher 准则 函数 的 基本 思路 : 即 向 量 w 的 方向 选择 应 
能 使 两 类 样本 投影 的 均值 之 差 尽 可 能 大 些 ,而 使 类 内 样本 的 离散 程度 尽 可 能 小 。 


3.5.3 Fisher 分 类 器 设计 


已 知 N 个 d 维 样本 数据 集合 X 二 {x ,zs,… ,zn}) ,其 中 类 别 为 wi(i 一 1,2) ,样本 容量 为 
Ni, 其 子 集 为 xi, 以 投影 坐标 向 量 w 与 原 特征 向 量 x 作 数量 积 , 可 得 投影 表达 式 为 y, 一 
wixa(n=1,2,.…,N)。, 

相应 地 ,yw 也 为 两 个 子 集 y! 和 ys。 如 果 只 考虑 投影 向 量 w 的 方向 ,不 考虑 其 长 度 , 即 


默认 其 长 度 为 单位 1, 则 y, 即 为 x* 在 w 方向 上 的 投影 。Fisher 准则 的 目的 就 是 寻找 最 优 投 
影 方向 ,使 得 w 为 最 好 的 投影 向 量 w 。 

样本 在 4 维特 征 空间 的 一 些 描述 量 如 下 。 

(1) 各 类 样本 均值 向 量 mi 


N; 
高 也， 下 三 人 而 (3-9) 
(2) 样本 类 内 离散 度 矩 阵 $; 与 总 类 内 离散 度 矩 阵 S。 
S， ie mi) x; — mi)T, i=1,2 (3-10) 
So 一 8 十 5 (3-11) 
(3) 样本 类 间 离 散 度 和 矩阵 5。 
Sb = (mm — m2) (mi — mz) -12) 


如 果 在 一 维 上 投影 , 则 有 各 类 样本 均值 向 量 m; 


元 一 记忆 六， en (3-13) 
样本 类 内 离散 度 和 矩阵 5; 与 总 类 内 离散 度 矩 阵 S。 
Ni 
束 一 >)(y 一 而)，i 一 1,2 (3-14) 
j=1 
5S, = S1+ 5; (3-15) 


Fisher 准则 函数 的 定义 原则 为 ,希望 投影 后 ,在 一 维 空间 中 样本 类 别 区 分 清晰 , 即 两 类 
样本 的 距离 越 大 越 好 ,也 就 是 均值 之 差 (mi 一 砚 ;) 越 大 越 好 ; 各 类 样本 内 部 密集 , 即 类 内 高 
散 度 5 二 $1 十 $; 越 小 越 好 。 根 据 上 述 两 条 原则 ,构造 Fisher 准则 函数 
(m1 一 页:) 

3 十 3 
使 得 Jr(Cw) 为 最 大 值 的 w 即 为 要 求 的 投影 向 量 w*。 

式 (3-16) 称 为 Fisher 准则 函数 , 需 进 一 步 转化 为 w 的 显 函 数 ,为 此 要 对 m1 ,ms 等 项 进 

一 步 演化 。 由 于 


Jr(w) 一 (3-16) 


Ni N; 
Mm; 齐 了 起 下 wz 一 (记忆 = )= wm; (3-17) 
则 有 


(mi CO— m2)’: = (Wm 一 Wm): = WTC mm —m) w= wiSw (3-18) 


其 中 5, 二 Gm 一 mz) (mi 一 ms)" 为 类 间 离 散 和 矩阵 。 再 由 类 内 离散 度 


N, N; N: 
5: = Dy —m)’ = Pwrxj — wimi)’ eb — mi) (x mre = wiSw 
j=1 j=1 j=1 


(3-19) 


N; 


其 中 5; = Ds — mi) (x; — mi)™。 


所 以 总 类 内 离散 度 为 
S。 一 $ 十 $ = wi (SS w= wiSw (3-20) 


模式 识别 与 人 工 智能 (基于 MATLAB) 


将 式 (3-18) 与 式 (3-20) 代 入 式 (3-16) ,得 到 Fisher 准则 函数 对 于 变量 w 的 显 式 函 数 为 
w Sow 


Ws (3-21) 


Jr(w) = 


对 z 的 分 量 作 线 性 组 合 y, 二 w xa(n 二 1,2,…,N), 从 几何 意义 上 看 , 上 wl| 三 1, 则 每 
个 ww 就 是 相对 应 的 x* 到 方向 为 w 的 直线 上 的 投影 。w 的 方向 不 同 , 将 使 样本 投影 后 的 可 
分 离 程 序 不 同 ,从 而 直接 影响 识别 效果 。 

求解 Fisher 准则 函数 的 条 件 极 值 , 即 可 解 得 使 Je(w) 为 极 值 的 w*。 对 求 取 其 极 大 值 时 
的 w", 可 以 采用 拉 格 朗 日 乘 子 算法 解决 , 令 分 母 非 0, 即 w Sow 一 < 天 0。 


构造 拉 格 朗 日 函数 
L(w,A) = w'Sow—A(w Suw— ce) (3-22) 
对 w 求 偏 导 ,并 令 其 为 0, 即 
LWA _ Sp — A 0 Co- 2 
oaw 
得 到 
Sbw” = ASuw” (3-24) 


由 于 Su。 非 奇 异 ,两 边 左 乘 Sw' ,得 到 S%'Sbw" 一 Mo" ,该 式 为 矩阵 Sw'Ss 的 特征 值 问 
题 。 其 中 , 拉 格 朗 日 算 子 4 为 矩阵 S'Ss 的 特征 值 ; w* 即 对 应 于 特征 值 4 的 特征 向 量 , 即 最 
佳 投 影 的 坐标 向 量 。 
矩阵 特征 值 的 问题 有 标准 的 求解 方法 。 在 此 给 出 一 种 直接 求解 方法 ,不 求 特征 值 而 直 
接 得 到 最 优 解 w*。 
由 于 
Sy = (mm — m2) mi — m2)™ (3-25) 


所 以 


Sbw” = (mo—m) mo—m) ww" = (mo— m2)R 


式 中 ,R= Cm 一 ms)"w" 为 限定 标量 。 进 而 ,由 于 


Ww" = SwSiw’ = Sw'(Sow') = Sami— mi)R (3-26) 
得 到 
Ww” = RS Cm 一 me) (3-27) 


忽略 比例 因子 RMA ,得 到 最 优 解 w 二 Ss Cm 一 ms)。 因 此 ,使 得 Je(w) 取 极 大 值 时 的 w 

即 为 d 维 空间 到 一 维 空间 的 最 佳 投影 方向 
w” = Sw (mi— mz) (3-28) 

向 量 w* 就 是 使 Fisher 准则 函数 Jf(Cw) 达 到 极 大 值 的 解 ,也 就 是 按 Fisher 准则 将 & 维 X 空 
间 投 影 到 一 维 Y 空间 的 最 佳 投 影 方向 ,w* 的 各 分 量 值 是 对 原 d 维特 征 向 量 求 加 权 和 的 权 值 。 

由 式 (3-28) 表 示 的 最 佳 投影 方向 是 容易 理解 的 ,因为 其 中 的 (ma 一 ms) 项 是 一 向 量 , 对 
与 (ma 一 maz) 平 行 的 向 量 投影 可 使 两 均值 点 的 距离 最 远 。 

但 是 如 何 使 类 间 分 得 较 开 ,同时 又 使 类 内 密集 程度 较 高 这 样 一 个 综合 指标 来 看 , 则 需 根 
据 两 类 样本 的 分 布 离散 程度 对 投影 方向 作 相 应 的 调整 ,这 就 体现 在 对 (mi 一 mz) 向 量 按 
Sw 作 一 线性 变换 ,从 而 使 Fisher 准则 函数 达到 极 值 点 。 


人 

以 上 讨论 了 线性 判别 函数 加 权 向 量 w 的 确定 方法 ,并 讨论 了 使 Fisher 准则 函数 极 大 的 

4 维 向 量 w "的 计算 方法 。 由 Fisher 判别 函数 得 到 了 最 佳 一 维 投影 后 ,还 需 确定 一 个 阔 值 点 
yo ,一 般 可 采用 以 下 几 种 方法 确定 yo, 即 


re (3-29) 
学 
_ Ni mi + Ns mz " 
天 二 (3-30) 
mi m2 lIn(P(w)/P(w:)) 本 
Yo 7 二 Ni Ni—2 C3-31 


式 (3-29) 是 根据 两 类 样本 均值 之 间 的 平均 距离 来 确定 阔 值 点 的 。 式 (3-30) 既 考虑 了 样 
本 均值 之 间 的 平均 距离 ,又 考虑 了 两 类 样本 的 容量 大 小 作 阅 值 位 置 的 偏 移 修 正 。 式 (3-31) 既 
使 用 了 先 验 概率 P(wi) ,又 考虑 了 两 类 样本 的 容量 大 小 作 阅 值 位 置 的 偏 移 修正 ,目的 都 是 使 
得 分 类 误差 尽 可 能 小 。 

为 了 确定 具体 的 分 界面 ,还 要 指定 线性 方程 的 常数 项 。 实 际 工作 中 可 以 采用 对 yo 进行 逐 
次 修正 的 方式 ,选择 不 同 的 yo 值 , 计 算 其 对 训练 样本 集 的 错误 率 , 找 到 错误 率 较 小 的 yo 值 。 

对 于 任意 未 知 类 别 的 样本 x, 计 算 它 的 投影 点 > 一 wx 决策 规则 为 


y>>y%, XEw 
1 (3-32) 


yy XEw 


3.5.4 Fisher 算法 的 MATLAB 实现 


1. 流程 图 
根据 上 面 所 介绍 的 Fisher 判别 函数 ,可 得 出 如 图 3-3 所 示 的 流程 图 。 
选择 训练 样本 


根据 Fisher 准 则 
计算 w 


进行 样本 投影 


设 定 国 值 点 wo 


计算 未 知 样本 
的 投影 


Pw > N 
she 


县 


图 3-3 Fisher 分 类 器 设计 流程 图 


模式 识别 与 人 工 智 能 (基于 MATLAB) 


2. 样本 均值 
利用 MATLAB 程序 得 到 训练 样本 均值 ,程序 代码 如 下 : 


clear,close all; 
N=29; 为 训练 样本 总 个 数 
X = [1495.18 1957.44 ”3498.02 名 X 为 训练 样本 
1125:17 1594.39 2937.73 
1269.07 1910.72 2701.97 


ml = mean(X(1:11, :)); 名 求 得 第 一 类 样本 均值 


m2 = mean(X(12:29, :)); # 求 得 第 二 类 样本 均值 
3. 投影 向 量 


Fisher 准则 的 目的 就 是 寻找 最 优 投影 方向 ,使 得 w 为 最 好 的 投影 向 量 w 。 
利用 如 下 MATLAB 程序 求 得 最 佳 投影 向 量 : 


S1=0;S2=0; 多 初始 化 类 离散 度 
for i=1:11 
S1=S1+(X(i,:)— m1) x (X(i,:) — nm1)'; 多 求 得 第 一 类 的 类 内 离散 度 
end 
for i=12:29 
S2=S2+ (X(i,:)— m2) x (X(i,:) — m2)'; 名 求 得 第 二 类 的 类 内 离散 度 
end 
Sw= S1 + S52; 名 求 得 总 类 内 离散 度 
W= inv(Sw) * (ml — m2); 名 求 得 最 佳 投影 方向 
4. 阅 值 点 


本 设计 器 采用 wm 一 w” (mu 十 m2)"/2 来 确定 阔 值 点 ,由 于 该 式 既 考 虑 了 样本 均值 之 间 的 
平均 距离 ,又 考虑 了 两 类 样本 的 容量 大 小 作 阔 值 位 置 的 偏 移 修正 ,因此 采用 它 可 以 使 得 分 类 
误差 尽 可 能 小 。 


5. 输出 分 类 结果 

对 于 任意 未 知 类 别 的 样本 x, 计算 它 的 投影 点 > 一 wx' 决 策 规则 为 : 当 yyo 时 ,xE 
ol; 当 y<yo 时 ,xzEwa。 

输出 分 类 结果 的 MATLAB 程序 如 下 : 


for i=1:22 
y= Wxx(i,:)" 名 确定 投影 点 
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if y>y0 % 当 y>y0 时 ,测试 样本 属于 第 一 类 

disp( '—') 

hold on, plot3(x(i,1), x(i,2), x(i,3), 'r+', 'MarkerSize',6, 'LineWidth', 2) 
else 

disp(' 二 ') 当 y<y0 时 ,测试 样本 属于 第 二 类 

hold on, plot3(x(i,1), x(i,2),x(i,3), 'b+', 'MarkerSize',6, 'LineWidth', 2) 
end 
end 


3.5.5 识别 待 测 样本 类 别 


本 节 内 容 以 竞 酒 为 例 。 不 同类 型 的 酒 是 由 多 种 成 分 按 不 同 的 比例 构成 的 , 兑 酒 时 需要 
三 种 原料 (X,Y,2) ,现在 已 测 出 不 同 酒 中 三 种 原料 的 含量 ,需要 判定 它 属于 四 种 类 型 中 的 
哪 一 种 。 样 本 中 ,前 29 组 数据 用 于 学 习 , 后 22 组 用 于 识别 。 


1. 选择 分 类 方法 


由 于 Fisher 分 类 法 一 次 只 能 将 样本 分 成 两 类 ,因此 ,首先 要 将 样本 分 成 两 大 类 , 即 一 
类 、 二 类 ,然后 再 继续 往 下 分 ,将 其 分 成 1.2、3、4 类 。 分 类 流程 图 如 图 3-4 所 示 。 


ET 
1 1 


(包含 第 1、2 类 )| |( 包 含 第 3、4 类 ) 


图 3-4 ”Fisher 分 类 流程 图 


将 样本 分 成 两 大 类 有 3 种 分 法 ,如 表 3-2 所 示 。 
表 3-2 Fisher 分 类 方法 


种 类 分 类 方法 

第 一 种 第 1、2 类 作为 第 一 类 ,第 3.4 类 作为 第 二 类 
第 二 种 第 1.3 类 作为 第 一 类 ,第 2.4 类 作为 第 二 类 
第 三 种 第 1.4 类 作为 第 一 类 ,第 2.3 类 作为 第 二 类 


根据 所 给 的 训练 样本 数据 ,利用 MATLAB 程序 得 出 训练 样本 分 布 图 ,如 图 3-5 所 示 。 
观察 训练 样本 分 布 图 可 知 ,如 果 将 第 1.2 类 分 在 一 起 作为 第 一 类 ,第 3、4 类 分 在 一 起 作 
为 第 二 类 ,这样 很 难 将 它们 分 开 , 因 此 排除 这 种 分 类 方法 ,应 选择 第 二 .三 种 分 类 方法 。 


文件 (F) ” 鲍 句 (日 ”查看 (V) 插入 四 “工具 (点 面 (D) 窗口 (W) 帮助 (H) 


BE ERNEST 
训练 样本 分 布 图 


图 3-5 训练 样本 分 布 图 


2. MATLAB 程序 


(1) 选择 第 二 种 方法 的 相关 程序 及 仿真 结果 。 
训练 样本 分 布 图 程序 代码 如 下 : 


clear, close all; 

B=29> 

X = [864.45 1647.31 2665.9; 
877.88 2031.66 3071.18; 
1418.79 1775.89 2772.9; 
1449.58 1641.58 3405.12; 
2352.12 2557.04 1411.53; 
2297.28 3340.14 535.62; 
2092.62 3177.21 584.32; 
2205.36 3243.74 1202.69; 
2949.16 3244.44 662.42; 
2802.88 3017.11 1984.98; 
2063.54 3199.76 1257221> 
1739.94 ”1675:15 2395. 96; 
1756.77 1652 1514.98; 
1803.58 1583.12 2163.05; 
1571.17 1731.04 7352337 
1845.59 1918.81 2226. 49; 
1692.62 1867.5 2108.97; 
1680.67 1575.78 1725. 1 


1651.52 


373-3 


222 
401. 
363. 


104. 
499. 
> 


85 


fig= figure; 


plot3(X(1:4,1), Xx(1:4,2), X(1:4,3), 'r* ') 
hold on, plot3(X(5:11,1), X(5:11,2), X(5:11,3), 'g* ') 
hold on, plot3(X(12:19,1), XxX(12:19,2), Xx(12:19,3),'bx ') 


LS 
3087. 
3059. 
3259. 
3477. 
3389. 
3305. 
3084. 
3076. 
3095. 
3077. 


28 
05 
54 
94 
95 
83 
75 
49 
62 
68 
78 


1570. 
2429. 
2002. 
2150. 
2462. 
2421. 
2196s 
2328: 
2438. 
2088. 
2251. 


38; 
47; 
337 
98; 
86; 
83; 
22; 
下 57 
63; 
EE 
96; 
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hold on, plot3(X(20:29,1), X(20:29,2), X(20:29,3), 'k* ');grid; box 
title(' 训 练 样本 分 布 图 ') 


legend(' 第 1 类 ', ' 第 2 类 ', ' 第 3 类 ',' 第 4 类 ') 


测试 样本 分 为 一 (1、3) 类 ,二 (2、4) 类 程序 代码 如 下 : 


clear, close all; 


N= 29; 
X = [864. 
877. 


1418. 
1449. 
1739. 
1756. 
1803. 
1571. 
1845. 
1692. 
1680. 
1651. 
2352. 
2297. 
2092. 
2205. 
2949. 
2802. 
2063. 


3 
222. 
401. 
363. 
104. 
499. 
172. 
341. 
291. 
23%: 


45 
88 
9 
58 
94 
77 
58 
7 
59 
62 
67 
52 
12 
28 
62 
36 
16 
88 
54 
3 


1647.31 
2031.66 
1775.89 
1641.58 
1675.15 


1652 


1583.12 
1731.04 
1918.81 


1867.5 


1575.78 
1713.28 
2557.04 
3340.14 
3177.21 
3243.74 
3244.44 
30SLY 
3199.76 
3087.05 
3059.54 
3259.94 
3477.95 
3389.83 
3305.75 
3084.49 
3076.62 
3095.68 
3077.78 


2665.9 


3071.18 


2772.9 


3405.12 
2395.96 
1514.98 
2163.05 
1735.33 
2226.49 
2108.97 


1725,1 


1570.38 
1411.53 


535.62 
584.32 


1202.69 


662.42 


1984.98 
1257.21 
2429.47 
2002.33 
2150.98 
2462.86 
2421.83 
2196.22 
2328.65 
2438.63 
2088.95 
2251.96] 


fig= figure; 

DIOt2UR( :Lo (Ll 2 

hold on, plot3(X(13:29,1),X(13:29,2), X(13:29,3),'r+ ');grid;box 

title(' 分 为 一 、 二 类 分 布 图 ') 

ml = mean(X(1:12, :)); 

m2 = mean(X(13:29, :)); 

S1=0;S2=0; 

for i=1:12 
Sl1= SLI+ (X(1,:) = nl) (KE 一 at) 

end 

for i=13:29 
S2= S2+ (X(i,:)— m2) * (X(i,:) — m2)'; 

end 

Sw= S11+S2; 

W= inv(Sw) * (ml — m2); 

W= W. /norm(W) 

x= [1702.8 1639.79 2068.74 
1877:93” 1960:96. 1975:3 
867.81 2334.68 2535.1 
1831.49 1713.11 1604.68 
460.69 3274.77 2172.99 
2374.98 3346.98 975.31 
2271.89 3482.97 946.7 
1783.64 1597.99 2261.31 
198.83 3250.45 2445.08 
1494.63 2072.59 2550.51 
1597.03 1921.52 2126.76 
1598.93 1921.08 1623.33 
1243.13 1814.07 3441.07 
2336.31 2640.26 1599.63 
354 3300.12 2373.61 
2144.47 2501,.62; 591.51 
426.31 3105.29 2057.8 
1507.13 1556.89 1954.51 
343.07 3271.72 2036.94 
2201.94 3196.22 935.53 
2232.43 3077.87 1298:87 
1580.1 1752.07 2463.04 
1962.4 1594.97 1835.95 
1495.18 1957.44 3498.02 
1125.17 1594.39 2937.73 
24.22 3447.31 2145.01 
1269.07 1910.72 2701.97 
1802.07 1725.81 1966.35 
1817.36 1927.4 2328.79 
1860.45 1782.88 1875.13]; 

yO0= Wx (ml +m2)'/2; 

For I=: 30 

if Wx x(i,:)'>y0 

disp('—') 
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hold on, plot3(x(i,1), x(i,2), x(i,3), 'g* ', 'MarkerSize',6, 'LineWidth', 2) 
else 

disp("=") 

hold on, plot3(x(i,1), x(i,2), x(i,3), 'kx', 'MarkerSize',6, 'LineWidth', 2) 
end 
end 
legend( ' 训 练 样本 一 类 ', ' 训 练 样本 二 类 ', "测试 样本 一 类 ', "测试 样本 二 类 


程序 运行 完 之 后 ,出 现 如 图 3-6 所 示 的 一 、 二 类 数据 分 类 结果 图 界面 。 


分 为 一 、 二 类 分 布 图 


十 训练 样本 一 类 
十 训练 样本 二 类 
测试 样本 一 类 
测试 样本 二 类 


图 3-6 数据 的 一 、 二 类 分 类 结果 图 界面 
运行 MATLAB 程序 的 结果 如 下 : 


册 = 
0.2363 -0.9187 0.3166 


测试 样本 一 类 分 为 1.3 类 的 程序 代码 如 下 : 


第 3 章 ”判别 西数 分 类 器 设计 


《一 


程序 运行 完 之 后 ,出 现 如 图 3-7 所 示 的 1、3 类 数据 分 类 结果 图 界面 。 
运行 MATLAB 程序 的 结果 如 下 : 


中 已 回 昌 | 信 尽 起 图 网 到 马 回 
分 为 1.3 类 分 布 图 


训练 样本 1 芙 
训练 样本 3 英 
测试 样本 1 身 
测试 样本 3 英 


图 3-7 测试 样本 的 1、3 类 分 类 结果 图 界面 


wmwwpPphpwww 


测试 样本 二 类 分 为 2.4 类 的 程序 代码 如 下 : 


clear,close all; 


N=17; 

X= [2352.12 2557.04 1411.53; 
2297.28 3340.14 535.62; 
2092.62 3177.21 584.32; 


2205.36 3243.74 1202.69; 
2949. 3244.44 662.42; 

2802. 3017.11 1984.98; 
2063.54 3199,76 1257.21; 


85 


3 3087.05 2429.47; 
222.85 3059.54 2002.33; 
401.3 3259.94 2150.98; 


363.34 3477.95 2462.86; 
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104.8 3389.83 2421.83; 
499.85 3305.75 2196. 22; 
172.78 3084.49 2328.65; 
341.59 3076.62 2438.63; 
291.02 3095.68 2088.95; 
237.63 3077.78 2251.96;] 
fig= figure; 
plot3(X(1:7,1), xX(1:7,2), X(1:7,3), 'r.') 
hold on, plot3(X(8:17,1), xX(8:17,2), Xx(8:17,3), 'b. ');grid;box 
title(' 分 为 2.4 类 分 布 图 ') 
ml = mean(X(1:7, :)); 
m2= mean(X(8:17,:)); 
S1=0;S2=0; 
for i=1:7 
S1=S1+(X(i,:)— m1)* (X(i,:) —m1)'; 
end 
for i=8:17 
S2= 82+ (X(1:) — mn2) RH 一 m2》77 
end 
Sw= Sl1 + S2; 
W= inv(Sw) * (ml — m2); 
W= W. /norm(W) 
x=[460.69 3274.77 2172.99 
2374.98 3346.98 375 3 
2271.89 3482.97 946.7 


198.83 3250.45 2445.08 
2336.31 2640.26 1599.63 
354 3300.12 2373.61 
2144.47 2501.62 591:51 
426.31 3105.29 2057.8 
343.07 3271.72 2036.94 


2201.94 3196.22 935.53 
2232.43 3077.87 1298.87 
24.22 3447.31 2145.01 
]; 
hold on, plot3(2232.43, 3077.87,1298. 87, 'r + ', 'MarkerSize', 6, 'LineWidth', 2) 
hold on, plot3(362.51,3150. 03,2472, 'b+ ', 'MarkerSize', 6, 'LineWidth', 2) 
Y0 =Wx (ml + m2)'/2; 
for i=1:12 
if Wxx(i,:)'>y0 
disp( '2') 
hold on, plot3(x(i,1), x(i,2), x(i,3), 'r+', 'MarkerSize',6, 'LineWidth', 2) 
else 
disp('4') 
hold on, plot3(x(i,1), x(i,2), x(i,3), 'b+', 'MarkerSize',6, 'LineWidth', 2) 
end 
end 
legend( ' 训 练 样本 2 类 ', ' 训 练 样本 4 类 ', ' 测 试 样本 2 类 ', ' 测 试 样本 4 类 ') 


程序 运行 完 之 后 ,出现 如 图 3-8 所 示 的 2、4 类 数据 分 类 结果 图 界面 。 


模式 识别 与 人 工 智能 (基于 MATLAB) 


文 伯 ( 多 加 由 。 王 看 V) 逝 和 工具 EB 
BEET FRIESEATTPEL Wl 


分 为 2、.4 类 分 布 图 


图 3-8 测试 样本 的 2、4 类 分 类 结果 图 界面 
运行 MATLAB 程序 的 结果 如 下 


册 = 
0.8696 -0.0333 一 0.4926 


PANDAPPDADADDA 


(2) 选择 第 三 种 方法 的 相关 程序 及 仿真 结果 。 
测试 样本 分 为 一 (1、4) 类 二 (2、3) 类 的 程序 代码 如 下 : 


clear,close all; 

9 

X = [864.45 1647.31 2665.9 
877.88 2031.66 3071.18 
1418.79 1775.89 2772.9 
1449.58 1641.58 3405.12 
33 3087.05 2429.47; 
222.85 3059.54 2002. 33; 


237.63 
2352; 12 
2297.28 
2092.62 
2205.36 
2949.16 
2802.88 
2063.54 
1739.94 
1756.77 
1803.58 
ToTlaly 
1845.59 
1692.62 
1680.67 
1651.52 
] 

fig= figure; 


plot3(X(1:14,1), X(1:14,2), X(1:14,3),'r+') 


3259.94 
3477.95 
3389.83 
3305.75 
3084.49 
3076.62 
3095.68 
3077.78 
2557.04 
3340.14 
177-21 
3243.74 
3244.44 
30T7-1. 
3199.76 
1675.15 
1652 
1583.12 
1731.04 
1918.81 
1867.5 
1575.78 
1713.28 


2150. 98; 
2462. 86; 
2421. 83; 
2196. 22; 
2328.65; 
2438. 63; 
2088. 95; 
2251.96; 
1411.53; 
535.62; 

584. 32; 

1202.69; 
662.42; 

1984.98; 
1257.21; 
2395.96; 
1514.98; 
2163.05; 
1735. 33; 
2226. 49; 
2108.97; 
1725. 1; 

1570. 38; 
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hold on, plot3(X(15:29,1), X(15:29,2), X(15:29,3), 'b+ ');grid;box 
title(' 分 为 一 、 二 类 分 布 图 ') 
ml = mean(X(1:14, :)); 
m2 = mean(X(15:29, :)); 


S1=0;S2=0; 
for i=1:14 


S1=S1+(X(i,:)— ml) x (X(i,:) -m1)'; 


end 
for i=15:29 


S2=S2+(X(i,:) — m2) x (X(i,:) —m2)'; 


end 
Sw= S1 + S2; 


W= inv(Sw) x* (ml — m2); 


W= W. /norm(W) 

x=[1702.8 
1877.93 
867.81 
1831. 49 
460. 69 
2374.98 
2271.89 
1783. 64 
198.83 
1494. 63 
1597. 03 
1598.93 
1243.13 
2336.31 
354 
426.31 


1639.79 
1860.96 
2334.68 
3 
3274.77 
3346.98 
3482.97 
1597.99 
3250.45 
2072.59 
2 
1921.08 
1814.07 
2640.26 
3300.12 
3105.29 


2068.74 
1975:3 
2535.1 
1604.68 
2172.99 
S97553L 
946.7 
2261.31 
2445.08 
2550.51 
2126.76 
1623.33 
3441.07 
1599.63 
2373.61 
2057.8 


2144.47 2501.62 HOLS 

1507.13 1556.89 1954.51 

343.07 3271.72 2036.94 

2201.94 3196. 22 935.33 
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2232.43 3077. 1298.87 
1580.1 1752.07 2463.04 
1962.4 1594.97 1835.95 


1495.18 1957.44 3498.02 
1125.17 1594.39 2937.73 
24.22 3447.31 2145.01 
1269.07 1910.72 2701.97 
1802.07 1725.81 1966.35 
1817.36 1927.4 2328.79 
1860.45 1782.88 1875.13]; 
yO0= Wx (ml +m2)'/2; 


for i=1:30 
if Wxx(i,:)'>y0 

disp('—') 

hold on, plot3(x(i,1), x(i,2), x(i,3),'r* ', 'MarkerSize',6, 'LineWidth', 2) 
else 

disp(' 二 ') 

hold on, plot3(x(i,1),x(i,2), x(i,3),'bx ', 'MarkerSize',6, 'LineWidth', 2) 
end 
end 


legend( "训练 样本 一 类 ', ' 训 练 样本 二 类 ', ' 测 试 样本 一 类 ', ' 测 试 样本 二 类 ') 


程序 运行 完 之 后 ,出 现 如 图 3-9 所 示 的 数据 分 类 结果 图 界面 。 


已 曙 名 | RSS BG BD0 因 | 日 口 


分 为 一 、 二 类 分 布 图 


图 3-9 ” 按 第 三 种 方法 分 为 一 、 二 类 的 结果 图 界面 
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(c= 


运行 MATLAB 程序 之 后 的 结果 如 下 : 


测试 样本 一 类 分 为 1、4 类 的 程序 代码 如 下 : 


棋 式 


别 与 人 工 智 能 (基于 MATLAB) 


fig= figure; 
PlotS(X(l> dT) (tl 2) UL 
hold on, plot3(X(5:14,1), XxX(5:14,2), Xx(5:14,3), 'b. ');grid;box 
title(' 分 为 1.4 类 分 布 图 ') 
ml = mean(X(1:4, :)); 
m2 = mean(X(5:14, :)); 
S1=0;S2=0; 
for i=1:4 
S1= S11+ (X(i,:)— m1) * (X(i,:) —m1)'; 
end 
for i=5:14 
S2=S2+ (X(i,:)— m2) x (X(i,:) —m2)'; 
end 
Sw= Sl1+S2; 
W= inv(Sw) * (ml — m2); 
W= WW, /norm(W) 
x= [867.81 2334.68 2535.1 
460.69 3274.77 2172.99 
198.83 3250.45 2445.08 
1243.13 1814.07 3441.07 
354 3300.12 2373.61 
426.31 3105.29 2057.8 
343.07 3271.72 2036,.94 
1495.18 1957.44 3498.02 
1125.17 1594.39 2937.73 
24.22 3447.31 2145.01 
1269.07 1910.72” 2701,.97 
]; 
hold on, plot3(1495. 18, 1957. 44, 3498. 02, 'r + ', 'MarkerSize',6, 'LineWidth', 2) 
hold on, plot3(1557.27,1746. 27,1879.13, 'b+ ', 'MarkerSize', 6, 'LineWidth', 2) 
yO0= Wx (ml + m2)'/2; 
for i=1:11 
if Wx x(i,:)'>y0 
disp('1') 
hold on, plot3(x(i,1), x(i,2), x(i,3),'r+', 'MarkerSize', 6, 'LineWidth', 2) 
else 
disp('4') 
hold on, plot3(x(i,1), x(i,2), x(i,3),'b+', 'MarkerSize', 6, 'LineWidth', 2) 
end 
end 
legend( ' 训 练 样本 1 类 ', ' 训 练 样本 4 类 ', ' 测 试 样本 1 类 ', ' 测 试 样本 4 类 ') 


程序 运行 完 之 后 ,出现 如 图 3-10 所 示 的 1、4 类 数据 分 类 结果 界面 。 


文件 (F) 鲍 壬 (9 查看 (V) 揪 入 们 ”工具 (点 面 (D) 室 口 (W) | 帮助 (H) | 
DoS RS GR ogo 


分 为 1.4 类 分 布 图 


”训练 样本 1 类 
Ne ”训练 样本 4 业 
四 二 测试 样本 1 美 
中 测试 样本 4 类 


图 3-10 数据 的 1.4 类 分 类 结果 图 界面 


运行 MATLAB 程序 的 结果 如 下 : 


月 = 
0.4742 一 0.7890 0.3906 


PP ii 


测试 样本 二 类 分 为 2.3 类 的 程序 代码 如 下 : 


Clear, close all; 

W158 

= [2352.12: 2557.04 1411.53; 
2297.28 3340.14 535.62; 
2092.62 3L77: 2 584.32; 
2205.36 3243.74 1202.69; 
2949.16 3244.44 662.42; 


2802.88 3017.11 1984.98; 
2063.54 3199.76 L272 
1739.94 1675.15 2395.96 
1756.77 1652 1514.98 
1803.58 1583.12 2163.05 
1571.17 1731.04 1735.33 
1845.59 1918.81 2226.49 
1692.62 1867.5 2108.97 
1680.67 1575.78 i 

1651.52 1713.28 1570.38 


fig= figure; 

plot3(X(1:7,1),X(1:7,2), X(1:7,3), 'r. ') 

hold on, plot3(X(8:15,1), X(8:15,2), Xx(8:15,3), 'b. ') ;grid;box 
title(' 分 为 2.3 类 分 布 图 ') 

ml = mean(X(1:7, :)); 

m2 = mean(X(8:15, :)); 


S1=0;S2=0; 

for i=1:7 
S1=S1+(X(i,:)— m1) x (X(i,:) — m1)'; 

end 

for i=8:15 
S2=S2+(X(i,:)— m2) * (X(i,:)— m2)'; 

end 

Sw= S51+S2; 

W= inv(Sw) * (ml — m2); 

W= W. /norm(W) 

x= [1702.8 1639.79 2068.74 
1877:93 1860.96 1975.3 
1831. 49 73713531 1604.68 
2374.98 3346.98 975.31 
2271.89 3482.97 946.7 
1783.64 1597.99 2261.31 
1494.63 2072.59 2550.51 
1597.03 1921.52 2126.76 
1598.93 1921.08 1623.33 
2336.31 2640.26 1599.63 
2144.47 2501.62 591.51 
1507.13 1556. 89 1954. 51 
2201.94 3196.22 935.53 
2232.43 3077.87 1298.87 
1580.1 1752.07 2463.04 
1962.4 1594.97 1835.95 
1802.07 1725.81 1966.35 
1817.36 1927.4 2328.79 
1860. 45 1782.88 1875.13 


hold on, plot3(2232. 43, 3077.87, 1298. 87, 'r + ', 'MarkerSize', 6, 'LineWidth', 2) 
hold on, plot3(362.51, 3150.03,2472, 'b+ ', 'MarkerSize', 6, 'LineWidth', 2) 
Y0=Wx (ml +m2)'/2; 


forci=1:19 
if Wxx(i,:)'>y0 

disp( '2') 

hold on, plot3(x(i,1), x(i,2),x(i,3), 'r+', 'MarkerSize', 6, 'LineWidth', 2) 
else 

disp('3') 

hold on, plot3(x(i,1), x(i,2), x(i,3), ‘b+ ', 'MarkerSize', 6, 'LineWidth', 2) 
end 
end 
legend( ' 训 练 样本 2 类 ', "训练 样本 3 类 ', ' 测 试 样本 2 类 ',' 测 试 样本 3 类 ') 


程序 运行 完 之 后 ,出 现 如 图 3-11 所 示 的 2、3 类 数据 分 类 结果 图 界面 。 


[4 


eT EI Pa Wl 


分 为 2. 3 类 分 布 图 


”训练 样 木 2 美 

训练 翌 本 3 机 
他” 刷 认 作 木 2 贡 
中 测试 样本 3 美 


图 3-11 2,3 类 数据 分 类 结果 图 界面 
运行 MATLAB 程序 的 结果 如 下 : 


R= 
0.3837 02571917 一 0.4754 


wmwwwhbnbwww 


Yo 人 模式 识别 与 人 工 智能 (基于 MATLAB) 


CC 


将 两 种 分 类 方法 的 分 类 
结果 如 表 3-3 所 示 。 


结果 进行 比较 , 即 利用 第 二 ,三 种 分 类 方法 进行 比较 ,得 出 的 分 


表 3-3 两 种 分 类 结果 的 比较 


x y z 计 分 类 器 分 类 结果 计 分 类 器 分 类 结果 
第 二 种 (1.3,2.4 类 ) 第 三 种 (1.4:2、3 类 ) 
1639.79 2068. 74 3 
1860. 96 


867. 81 2334. 68 


975. 31 


3105. 29 
1556. 89 
3271. 72 
3196. 22 
3077. 87 
1752.07 
1594.97 1835.95 
1957. 44 3498. 02 
1594. 39 
3447. 31 
1910. 72 
1725. 81 1966. 35 
1927.4 2328. 79 
1860. 45 1782. 88 1875. 13 


wolwlc|oioic lelnlalsc i i i i i | | 
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党 3 计 天 列 由 数 分 并 于 设计 
比较 这 两 种 分 类 方法 ,方法 二 有 两 个 错误 分 类 ,方法 三 仅 有 一 个 错误 分 类 ,所 以 方法 三 
晨 守 放流 二 


3.5.6 结论 


本 节 主 要 论述 了 Fisher 分 类 法 的 概念 ,特点 及 其 分 类 器 设计 ,重点 讨论 了 利用 Fisher 
分 类 法 设计 分 类 器 的 全 过 程 。 在 设计 该 种 分 类 器 的 过 程 中 ,首先 利用 训练 样本 求 得 最 佳 投 
影 方向 w” ,并 确定 阅 值 点 ye; 接着 通过 分 析 来 归纳 给 定 样本 数据 的 分 类 情况 ; 最 后 利用 
MATLAB 中 的 相关 函数 、 工 具 设计 了 基于 Fisher 分 类 法 的 分 类 器 ,并 对 测试 数据 进行 了 成 
功 分 类 。 整 个 讨论 和 设计 过 程 ,关键 点 和 创新 点 就 在 于 对 测试 数据 的 处 理 过 程 上 ,通过 两 种 
方法 做 到 了 快速 且 相 对 准确 的 分 类 。 


基于 支持 向 量 机 的 分 类 法 


3.6.1 支持 向 量 机 简介 


从 观测 数据 中 学 习 归 纳 出 系统 运动 规律 ,并 利用 这 些 规律 对 未 来 数据 或 无 法 观测 到 的 
数据 进行 预测 一 直 是 智能 系统 研究 的 重点 。 传 统 学 习 方法 中 采用 的 经 验 风险 最 小 化 方法 
(ERM) 虽 然 将 误差 最 小 化 ,但 不 能 最 小 化 学 习 过 程 的 泛 化 误差 。ERM 方法 不 成 功 的 例子 
就 是 神经 网 络 中 的 过 学 习 问 题 。 为 此 ,由 Vapnik 领导 的 贝尔 实验 室 研究 小 组 于 1963 年 提 
出 了 一 种 新 的 非常 有 潜力 的 分 类 技术 ,支持 向 量 机 (support vector machine, SVM) 是 一 种 
基于 统计 学 习 理 论 的 模式 识别 方法 ,主要 应 用 于 模式 识别 领域 。 

支持 向 量 机 的 基本 思想 是 在 样本 空间 或 特征 空间 构造 出 最 优 超 平面 ,使 得 超 平面 与 不 
同类 样本 集 之 间 的 距离 最 大 ,从 而 达到 最 大 的 泛 化 能 力 。 


3.6.2 支持 向 量 机 基本 思想 


SVM 是 从 线性 可 分 情况 下 的 最 优 分 类 面 方法 发 展 而 来 
的 ,基本 思想 可 用 图 3-12 的 两 类 线性 可 分 情况 说 明 。 在 图 3-12 
中 ,实心 点 和 空心 点 代表 两 类 样本 , 实 线 P。、Pi 为 分 类 线 。 


两 条 虚线 分 别 为 过 各 类 中 离 分 类 线 最 近 的 样本 且 平 行 于 分 类 。 。*。 XD 

线 的 直线 ,它们 之 间 的 距离 叫 作 分 类 间隔 。 所 谓 最 优 分 类 线 最 各 超 平 面 m 

就 是 要 求 分 类 线 不 但 能 将 两 个 类 正确 分 开 ( 训 练 错误 率 为 

0) ,而 且 使 分 类 间隔 最 大 。 Be 
分 类 线 方程 为 


oz 十 0 一 0，wER"OER (3-33) 
此 时 分 类 间隔 为 2/ ew | ,使 间隔 最 大 等 价 于 使 | w 上 最 小 , 则 可 以 通过 求 | o |‖ ?7/2 的 极 


模式 识别 与 人 工 智能 (基于 MATLAB) 


小 值 获得 分 类 间隔 最 大 的 最 优 超 平 面 。 


这 里 的 约束 条 件 为 
ee ee (3-34) 
该 约束 优化 问题 可 以 用 Lagrange 方法 求解 , 令 
i = 玛 lol — DLyiCwzitb) —1] (3-35) 
其 中 ai 三 0 为 每 个 样本 的 拉 氏 乘 子 ,由 工分 别 对 5 和 w 导数 为 0, 可 以 导出 
Was (3-36) 
w= Sah (3-37) 


因此 , 解 向 量 有 一 个 由 训练 样本 集 的 一 个 子 集 样本 向 量 构成 的 展开 式 ,该 子 集 样本 的 拉 氏 乘 
子 均 不 为 0, 即 支持 向 量 。 拉 氏 乘 子 为 0 的 样本 向 量 的 贡献 为 0, 对 选择 分 类 超 平面 是 无 意 
义 的 。 于 是 ,就 从 训练 集中 得 到 了 描述 最 优 分 类 超 平面 的 决策 函数 即 支持 向 量 机 , 它 的 分 类 
功能 由 支持 向 量 决定 。 这 样 决策 函 数 可 以 表示 为 


A = sgn( Payi(z+zd) +d) (3-38) 
i=1 


3.6.3 支持 向 量 机 的 几 个 主要 优点 


(1) 它 是 专门 针对 有 限 样本 情况 的 ,其 目标 是 得 到 现 有 信息 下 的 最 优 解 而 不 仅仅 是 样 
本 数 趋 于 无 穷 大 时 的 最 优 值 。 

(2) 算法 最 终 将 转化 成 为 一 个 二 次 型 寻 优 问题 。 从 理论 上 说 ,得 到 的 将 是 全 局 最 优点 ， 
解决 了 在 神经 网 络 方法 中 无 法 避免 的 局 部 极 值 问 题 。 

(3) 算法 将 实际 问题 通过 非 线 性 变换 转换 到 高 维 的 特征 空间 (feature space)。 在 高 维 
空间 中 构造 线性 判别 函数 来 实现 原 空间 中 的 非 线 性 判别 函数 ,特殊 性 质 能 保证 机 器 有 和 较 好 
的 推广 能 力 , 同 时 它 巧 妙 地 解决 了 维 数 问题 ,其 算法 复杂 度 与 样本 维 数 无 关 。 


3.6.4 训练 集 为 非 线性 情况 


对 于 实际 上 难以 线性 分 类 的 问题 , 待 分 类 样本 可 以 通过 选择 适当 的 非 线性 变换 映射 到 
某 个 高 维 的 特征 空间 ,使 得 在 目标 高 维 空间 的 这 些 样 本 线性 可 分 ,从 而 转化 为 线性 可 分 问 
题 。Cover 定理 表明 ,通过 这 种 非 线性 转换 将 非 线 性 可 分 样本 映射 到 足够 高 维 的 特征 空间 ， 
非 线性 可 分 的 样本 将 以 极 大 的 可 能 性 变 为 线性 可 分 。 如 果 这 个 非 线 性 转换 为 %z), 则 超 平 
面 决策 函数 式 可 重 写 为 


f(x) 一 sen 人 Daiyi$ C7) $3) 十 名 (3-39) 
i=1 
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3.6.5 ” 核 浮 数 


在 上 面 的 问题 中 只 涉及 训练 样本 之 间 的 内 积 运算 。 实 际 上 在 高 维 空间 只 需 进 行内 积 运 
算 ,用 原 空间 中 的 函数 即 可 实现 ,甚至 没有 必要 知道 变换 的 形式 。 根 据 泛 函 的 有 关 理 论 , 只 
要 一 种 K(z,zi) 核 函数 满足 Mercer 条 件 , 它 就 对 应 某 一 变换 空间 中 的 内 积 。 因 此 ,在 最 优 
分 类 面 中 采用 适当 的 内 积 函数 K(z,zi) 就 可 以 实现 某 一 非 线性 变换 后 的 线性 分 类 ,而 计算 
复杂 度 却 没 有 增加 。 核 函数 存在 性 定理 表明 : 给 定 一 个 训练 样本 集 ,就 一 定 存在 一 个 相应 
的 函数 ,训练 样本 通过 核 函 数 映射 到 高 维特 征 空间 的 相 是 线性 可 分 的 。 

对 于 一 个 特定 的 核 函 数 , 给 定 的 样本 集中 的 任意 一 个 样本 都 可 能 成 为 一 个 支持 向 量 。 
这 意味 着 在 一 个 支持 向 量 机 算法 下 观察 到 的 特征 在 其 他 支持 向 量 机 算法 下 (其 他 核 函数 ) 并 
不 能 保持 。 因 此 对 于 解决 具体 问题 来 说 ,选择 合适 的 核 函数 是 很 重要 的 。 

常见 的 核 函 数 有 3 类 。 

(1) 多 项 式 核 函 数 。 

K(Czyzi) = [(zszi) 十 ]]* (3-40) 
(2) 径 向 基 函 数 C(RBF) 。 


K(zyzi) = exp( Le) (3-41) 
o 
(3) 采用 Sigmoid 函数 作为 内 积 。 
天 (zzi) 一 tanh(uCzyzi) 十 c) (3-42) 


3.6.6 多 类 分 类 问题 


基本 的 支持 向 量 机 仅 能 解决 两 类 分 类 问题 。 一 些 学 者 从 两 个 方向 研究 用 支持 向 量 机 解 
决 多 类 分 类 问题 : 一 个 方向 是 将 基本 的 两 类 支持 向 量 机 (Binary-class SVM,BSVM) 扩 展 为 
多 类 分 类 支持 向 量 机 (multi-class SVM, MSVM) ,使 支持 向 量 机 本 身 成 为 解决 多 类 分 类 问 
题 的 多 类 分 类 器 ; 另 一 方向 则 相反 ,将 多 类 分 类 问题 逐步 转化 为 两 类 分 类 问题 , 即 用 多 个 两 
类 分 类 支持 向 量 机 组 成 的 多 类 分 类 器 。 


1. 多 类 分 类 支持 向 量 机 MSVM 


实际 应 用 研究 中 多 类 分 类 问题 更 加 常见 ,只 要 将 目标 函数 由 两 类 改 为 多 类 (k 类 ) 情 况 ， 
就 可 以 很 自然 地 将 BSVM 扩展 为 多 类 分 类 支持 向 量 机 MSVM ,以 相似 的 方式 可 得 到 决策 


2. 基于 BSVM 的 多 类 分 类 器 


这 种 方案 是 为 每 个 类 构建 一 个 BSVM ,如 图 3-13 所 示 。 对 于 每 个 类 的 BSVM ,其 训练 
样本 集 的 构成 是 : 属于 该 类 的 样本 为 正 样本 ,而 不 属于 该 类 的 其 他 所 有 样本 为 负 样 本 , 即 该 
BSVM 分 类 器 将 该 类 样本 和 其 他 样本 分 开 。 在 1-a-1 分 类 过 程 中 训练 样本 需要 重新 标注 ， 
因为 一 个 样本 只 有 在 对 应 类 别 的 BSVM 分 类 器 才 是 正 样本 ,对 其 他 的 BSVM 分 类 器 都 是 


负 样 本 。 

1) 1-a-1 分 类 器 (One-against-one classifiers) 

对 于 1-a-l 分 类 器 ,解决 有 类 分 类 问题 就 需要 用 到 BSVM ,这 种 方案 是 每 两 个 类 别 训练 
一 个 BSVM 分 类 器 ,如 图 3-14 所 示 。 最 后 一 个 待 识 别 样本 的 类 别 是 由 所 有 k(k 一 1)/2 个 
BSVM” 投 票 "决定 的 。 


类 A 

分 类 超 平面 Se 用 分 类 超 平面 

类 BO O 
让 


图 3-13 BSVM 分 类 原理 图 图 3-14 1-a-l 分 类 原理 图 


2) 多 级 BSVM 分 类 器 
这 种 方案 是 把 多 类 分 类 问题 分 解 为 多 级 的 两 类 分 类 子 问题 ,如 图 3-15 所 示 。 两 种 典型 
方案 中 ,A、B、C.D、E、F 分 别 表示 7 个 不 同 的 类 。 


A,B,C.D,E,F A,B,C,D,E,F 


图 3-15 ”BSVM 多 级 分 类 


3.6.7 基于 SVM 的 MATLAB 实现 


1. 建立 模型 流程 图 
基于 SVM 的 数据 分 类 设计 流程 如 图 3-16 所 示 。 


选 定 训 训练 
数据 也 六 
和 | 叫 | 预 D| SM | 话 | 


3-16 基于 SVM 的 数据 分 类 设计 流程 


分 类 
准确 率 
2. 数据 预 处 理 


对 训练 集 和 测试 集 进行 归 一 化 预 处 理 , 采 用 [0.1] 区 间 归 一 化 。 


TT Tmin 
Pi 


Tmax Tmin 
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3. 训练 和 预测 
以 下 是 MATLAB 中 LibSVM 工具 箱 中 自 带 的 SVM 训练 和 预测 的 语句 。 


Omodel = svmtrain(train labels, train metrix,['libsvm options']) 
-train_labels: 训练 集 的 标签 

-- train_metrix: 训练 集 的 属性 

一 一 1libsvm_options: 一 些 选 项 参数 

一 model: 训练 得 到 的 分 类 模型 

@[predict label, accuracy] = svmpredict(test labels, test metrix, model) 
一 test_labels: 测试 集 的 标签 

-=- test_metrix: 测试 集 的 属性 

-- model: 由 svmtrain 得 到 的 分 类 模型 

一 predict_label: 预测 得 到 的 测试 集 的 标签 

一 accuracy: 分 类 准确 率 


4. LibSVM 工具 箱 简介 


LibSVM 是 台湾 大 学 林 智仁 教授 等 人 开发 设计 的 一 个 简单 .易于 使 用 且 快 速 有 效 的 
SVM 模式 识别 与 回归 的 软件 包 。 它 不 但 提供 了 编译 好 的 可 在 Windows 系统 中 执行 的 文 
件 , 还 提供 了 源 代码 ,方便 用 户 改进 ,修改 以 及 在 其 他 操作 系统 上 应 用 。 该 软件 还 有 一 个 特 
点 ,就 是 对 SVM 所 涉及 的 参数 调节 相对 比较 少 ,提供 了 很 多 的 默认 参数 ,利用 这 些 默认 参 
数 就 可 以 解决 很 多 问题 ; 同时 还 提供 了 交互 检验 的 功能 。 

以 下 是 LibSVM 工具 箱 的 安装 过 程 。 

(1) 下 载 libsvm-mat-2. 91-1 的 压缩 文件 ,将 其 解压 到 MATLAB 一 toolbox 的 安装 路 
经 下 。 

(2) 在 MATLAB 软件 中 执行 “设置 路 径 ”->“ 添 加 文件 夹 ”" 命 令 , 将 该 压缩 包 解 压 后 添 
加 到 工具 箱 即 可 。 


EX 


5. MATLAB 源 程序 
在 程序 开始 时 要 将 数据 进行 归 一 化 处 理 , 归 一 化 程序 如 下 : 


function normal = normalization(x,kind) 
% last modified 2009.2.24 
第 
if nargin < 2 
kind = 2;%kind = 1 or 2 表示 第 一 类 或 第 二 类 规范 化 
end 


[m,n] = size(x); 
normal = zeros(m,n); 
%% normalize the data x to [0,1] 
if kind == 1 
Sor i = Lm 
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ma = max( x(i,:) ); 


mi = min( x(i,:) ); 
normal(i,:) = (x(i,:)-mi)./(m-ni ); 
end 
end 
$%%normalize the data x to [—1,1] 
if kind 2 
for i = 1:m 


mea = mean( x(i,:) ); 
va = var( x(i,:) ); 
normal(i,:) = (x(i,:) -mea )/va; 
end 
end 


SVM 的 MATLAB 完整 源 程序 如 下 : 


clear; 
cle; 
load SVM; 


train train = [train(1:4, :);train(5:11, :) ;train(12:19, : );train(20:30, :)];$ 手动 划分 为 4 类 
train target = [target(1:4);target(5:11);target(12:19);target(20:30)]; 

test simulation = [simulation(1:6,:);simulation(7:11, :);simulation(12:24, :); 
simulation(25:30, :)]; 

test_labels = [labels(1:6);labels(7:11);labels(12:24);labels(25:30)]; 


$%train train = normalization(train train',2); 

$%test simulation = normalization(test simulation',2); 
$%train train = train train'7 

%test simulation = test simulation'; 


第 bestcv = 0; 

先 for log2c = -10:10, 

% for log2g = -10:10, 

先 cmd = ['-v5 -cnum2str(2^1og2c)，' -g num2str(2^1og2g)]; 当 将 训练 集 分 
名 为 5 类 

和 cv = swmtrain(train target, train train, cmd); 

第 if (cv>= bestcv), 

第 bestcv = cv; bestc = 2^1og2c; bestg = 2^1og2g; 

多 end 

向 end 

多 end 

和 fprintf('(best c= %g, g= %g, rate= %g)\n',bestc, bestg, bestcv); 

和 cmd = ['~c', num2str(bestc), ' ~-g', num2str(bestg)]; 

和 model = svmtrain(train target, train train, cmd); 


model = svmtrain(train target, train train，'-c2 -g0.2 -t1');% 核 函数 
[predict label, accuracy] = svmpredict(test labels, test simulation, model); 
hold off 
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f= predict_label'7 

indexl= find(f == 1); 

index2 = find(f == 2); 

index3 = find(f == 3); 

index4 = find(f == 4); 

plot3( simulation(:,1),simulation(:,2),simulation( :,3), '0'); 

line( simulation( index1, 1), simulation (indexl, 2), simulation (index1, 3), 'linestyle', 'none', 
'marker', ' * ', 'color', 'g'); 

line( simulation( index2, 1), simulation (index?2, 2), simulation (index2, 3), 'linestyle', 'none', 
‘marker', '<', 'color', 'r'); 

line( simulation( index3, 1), simulation ( index3, 2), simulation ( index3, 3), 'linestyle', 'none', 
'marker', ' + ', 'color', 'b'); 

line( simulation( index4, 1), simulation( index4, 2), simulation( index4, 3), 'linestyle', 'none', 
‘marker' > "color', y'); 

box;grid on; hold on; 

xlabel( 'A'); 

ylabel( 'B'); 

zlabel( 'C'); 

title(' 支 持 向 量 机 分 类 图 '); 


程序 运行 完 之 后 ,出 现 如 图 3-17 所 示 的 分 类 结果 图 界面 。 


口 已 日 各 | RR RS 8 轿 昌 及 -| 久 上 回回 


支持 向 量 机 分 类 图 


图 3-17 支持 向 量 机 分 类 结果 图 界面 
在 MATLAB 命令 窗口 将 出 现 如 下 结果 : 


Accuracy = 96.6667% (29/30) (classification) 
predict label = 


从 程序 运行 结果 可 以 看 出 分 类 正确 率 为 96. 6667% ,有 一 个 样本 分 错 了 。 


3.6.8 结论 


SVM 具有 优良 的 学 习 能 力 和 推广 能 力 ,能够 有 效 克 服 “ 维 数 灾难 ”和 “过 学 习 ” 问 题 ,而 
SVM 的 参数 是 影响 分 类 精度 、 回 归 预 测 的 重要 因素 。 仿 真 结果 表明 ,预测 结果 可 靠 ,可 以 为 
数据 提供 很 好 的 参考 信息 。 


(1) 什么 是 判别 函数 法 ? 

(2) 怎样 确定 线性 判别 函数 的 系数 ? 

(3) 线性 判别 函数 的 分 类 器 设计 方法 有 哪些 ? 非 线 性 判别 函数 的 分 类 器 设计 方法 有 哪 
些 ? 它们 有 什么 异同 ? 


聚 类 分 析 


聚 类 分 析 是 指 事先 不 了 解 一 批 样 本 中 的 每 一 个 样本 的 类 别 或 其 他 的 先 验 知识 ,而 唯一 
的 分 类 根据 是 样本 的 特征 ,利用 某 种 相似 度 度量 的 方法 ,把 特征 相同 或 相似 的 归 为 一 类 , 实 
现 聚 类 划分 。 

聚 类 分 析 就 是 对 探测 数据 进行 分 类 分 析 的 一 个 工具 ,许多 学 科 要 根据 所 测 得 的 或 感知 
到 的 相似 性 对 数据 进行 分 类 ,把 探测 数据 归 和 人 到 各 个 聚合 类 中 , 且 在 同一 个 聚合 类 中 的 模式 
比 不 同 聚 合 类 中 的 模式 更 相似 ,从 而 对 模式 间 的 相互 关系 做 出 估计 。 聚 类 分 析 的 结果 可 以 
被 用 来 对 数据 提出 初始 假设 ,分 类 新 数据 ,测试 数据 的 同类 型 及 压缩 数据 。 

聚 类 算法 的 重点 是 寻找 特征 相似 的 聚合 类 。 人 是 二 维 的 最 佳 分 类 器 ,然而 大 多 数 实际 
的 问题 涉及 高 维 的 聚 类 ,对 高 维 空间 内 的 数据 的 直观 解释 ,其 困难 是 显而易见 的 。 另 外 , 数 
据 也 不 会 服从 规则 现象 分 布 ,这 就 是 有 大 量 聚 类 算法 出 现在 文献 中 的 原因 。 


4.1.1 聚 类 的 定义 


Everett 提出 ,一 个 聚合 类 是 一 些 相似 的 实体 集合 ,而 且 不 同 聚 合 类 的 实体 是 不 相似 的 。 
在 一 个 聚合 类 内 的 两 个 点 间 的 距离 小 于 在 这 个 类 内 任 一 点 和 不 在 这 个 类 内 的 另 一 任 一 点 间 
的 距离 。 聚 合 类 可 以 被 描述 成 在 维 空间 内 存在 较 高 密度 点 的 连续 区 域 和 较 低 密度 点 的 区 
域 ,而 较 低 密度 点 的 区 域 把 其 他 较 高 密度 点 的 区 域 分 开 。 

在 模式 空间 S 中 , 若 给 定 N 个 样本 Xi ,XX，,… ,Xn, 聚 类 的 定义 是 : 按照 相互 类 似 的 程 
度 找 到 相应 的 区 域 Ri ,Rs,…, Ru, 对 任意 Xi(i 一 1,2,…,N) 归 入 其 中 一 类 ,而 且 不 会 同时 
属于 两 类 , 即 


Bi Us Ue R= (4-1) 
RMNMR= 2, iz¥j (4-2) 


模式 识别 与 人 工 智 能 (基于 MATLAB) 


这 里 站 、U 分 别 指 交集 和 并 集 。 
选择 聚 类 的 方法 应 以 一 个 理想 的 聚 类 概念 为 基础 。 然 而 ,如 果 数 据 不 满足 由 聚 类 技术 
所 做 的 假设 , 则 算法 不 是 去 发 现 真实 的 结构 而 是 在 数据 上 强加 某 种 结构 。 


4.1.2 聚 类 准则 


设 有 未 知 类 别 的 NN 个 样本 ,要 把 它们 划分 到 M 类 中 去 ,可 以 有 多 种 优 劣 不 同 的 聚 类 方 
法 ,怎样 评价 聚 类 的 优 劣 , 这 就 需要 确定 一 种 聚 类 准则 。 但 客观 地 说 , 聚 类 的 优 劣 是 就 某 一 
种 评价 准则 而 言 ,很 难 有 对 各 种 准则 均 呈 优良 表现 的 聚 类 方法 。 

聚 类 准则 的 确定 ,基本 上 有 两 种 方法 。 一 种 是 试探 法 ,根据 所 分 类 的 问题 ,确定 一 种 准 
则 ,并 用 它 来 判断 样本 分 类 是 否 合理 。 例 如 ,以 距离 函数 作为 相似 性 的 度量 ,用 不 断 修 改 的 
闷 值 来 探究 对 此 种 准则 的 满足 程度 , 当 取 得 极 小 值 时 ,就 认为 得 到 了 最 佳 划 分 。 另 一 种 是 规 
定 一 种 准则 函数 ,其 函数 值 与 样本 的 划分 有 关 , 当 取得 极 小 值 时 ,就 认为 得 到 了 最 佳 划 分 下 
给 出 的 一 种 简单 而 又 广泛 应 用 的 准则 , 即 误差 平方 和 准则 : 

设 有 NN 个 样本 ,分 属于 wsws，… ,wm 类 , 设 有 Ni 个 样本 的 w 类 ,其 均值 为 


Ni 
mi 二 二 DX, i=1,2,,M (4-3) 
ii=1 


Xe 一 二 DX i = L233M (4-4) 
因为 有 若干 种 方法 可 将 N 个 样本 划分 到 M 类 中 去 ,因此 对 应 一 种 划分 ,可 求 得 一 个 误差 平 
方 和 J 要 找到 使 三 值 最 小 的 那 种 划分 。 定 义 误差 平方 和 
M NN 
J= 3 DX —ml’ (4-5) 
i=1 大 一 1 


1= 2 DRX (4-6) 

经 验 表 明 , 当 各 类 样本 均 很 密集 ,各 类 样本 个 数 相 差 不 大 ,而 类 间距 离 较 大 时 ,适合 采用 

误差 平方 和 准则 。 若 各 类 样本 数 相差 很 大 ,类 间距 离 较 小 时 ,就 有 可 能 将 样本 数 多 的 类 一 分 

为 二 ,而 得 到 的 J 值 却 比 大 类 保存 完整 时 小 , 误 以 为 得 到 了 最 优 划分 ,实际 上 得 到 了 错误 
分 类 。 


4.1.3 基于 试探 法 的 聚 类 设计 


基于 试探 法 的 聚 类 设计 采用 假设 某 种 分 类 方案 ,确定 一 种 聚 类 准则 ,计算 j 值 , 找 到 了 
值 最 小 的 那 一 种 分 类 方案 , 则 认为 该 种 方法 为 最 优 分 类 。 基 于 试探 的 未 知 类 别 聚 类 算法 , 包 
括 最 临近 规则 的 试探 法 .最 大 最 小 距离 试探 法 和 层次 聚 类 试探 法 。 


1. 最 临近 规则 的 试探 法 


假设 前 i 个 样本 已 经 被 分 到 k 个 类 中 。 则 第 ;十 1 个 样本 应 该 归 人 哪 一 个 类 ? 假设 归 
和 内 类 ,要 使 J 最 小 , 则 应 满足 第 i 十 1 个 样本 到 w。 类 的 距离 小 于 给 定 的 阔 值 ; 若 大 于 给 定 


的 阅 值 了 , 则 应 为 其 建立 一 个 新 的 类 w+1。 在 未 将 所 有 的 样本 分 类 前 ,类 数 是 不 能 确定 的 。 

这 种 算法 与 第 一 个 中 心 的 选取 、 闵 值 T 的 大 小 、 样 本 排列 次 序 及 样本 分 布 的 几何 特性 
有 关 。 这 种 方法 运算 简单 , 当 用 有 关于 模式 几何 分 布 的 先 验 知识 作 指 导 给 出 阔 值 了 及 初始 
点 时 , 则 能 较 快 地 获得 合理 的 聚 类 结果 。 


2. 最 大 最 小 距离 试探 法 

最 临近 规则 的 试探 法 受 阔 值 T 的 影响 很 大 。 阔 值 的 选取 是 聚 类 成 败 的 关键 之 一 。 最 
大 最 小 距离 算法 充分 利用 样本 内 部 特性 ,计算 出 所 有 样本 间 的 最 大 距离 作为 归 类 阔 值 的 参 
考 ,改善 了 分 类 的 准确 性 。 例 如 ,采用 某 样本 到 某 一 个 聚 类 中 心 的 距离 小 于 最 大 距离 的 一 
半 , 则 归 入 该 类 ,否则 建立 新 的 聚 类 中 心 。 


3. 层次 聚 类 试探 法 

层次 聚 类 方法 对 给 定 的 数据 集 进行 层次 的 分 解 ,直到 某 种 条 件 满 足 为止 。 具 体 又 可 分 
为 合并 分裂 两 种 方案 。 

合并 的 层次 聚 类 是 一 种 自 底 向 上 的 策略 ,首先 将 每 个 对 象 作 为 一 个 类 ,然后 根据 类 间距 
离 的 不 同 , 合 并 距离 小 于 阔 值 的 类 ,合并 一 些 相似 的 样本 ,直到 终结 条 件 被 满足 。 合 并 算法 
会 在 每 一 步 减 小 聚 类 中 心 数量 , 聚 类 产生 的 结果 来 自 于 前 一 步 的 两 个 聚 类 的 合并 。 绝 大 多 
数 层次 聚 类 方法 属于 这 一 类 ,它们 只 是 在 相似 度 的 定义 上 有 所 不 同 。 

分 裂 的 层次 聚 类 与 合并 的 层次 聚 类 相反 ,采用 自 项 向 下 的 策略 , 它 首先 将 所 有 对 象 置 于 
同一 个 簇 中 ,然后 逐渐 细 分 为 越 来 越 小 的 样本 簇 ,直到 达到 了 某 个 终止 条 件 。 分 裂 算 法 与 合 
并 算法 的 原理 相反 ,在 每 一 步 增加 聚 类 中 心 数目 ,每 一 步 聚 类 产生 的 结果 ,都 是 将 前 一 步 的 
一 个 聚 类 中 心 分 裂 成 两 个 而 得 到 的 。 

常用 的 聚 类 方法 有 均值 聚 类 、 分 层 聚 类 和 模糊 聚 类 。 


数据 聚 类 一 一 K 均值 聚 类 


4.2.1 kK 均值 聚 类 简介 


开 均 值 聚 类 发 明 于 1956 年 ,该 算法 最 常见 的 形式 是 采用 被 称 为 劳 埃 得 算法 (Lloyd 
algorithm) 的 迭代 式 改进 探索 法 。 劳 埃 得 算法 首先 把 输入 点 分 至 个 初始 化 分 组 ,可 以 使 
用 随机 或 者 一 些 启发 式 数据 ,然后 计算 每 组 的 中 心 点 ,根据 中 心 点 的 位 置 把 样本 分 到 离 它 最 
近 的 中 心 ,重新 确定 分 组 , 青 继续 重复 不 断 地 计算 中 心 并 重新 分 组 ,直到 收敛 , 即 样本 不 青 改 
变 分 组 (中 心 点 位 置 不 再 改变 ) 。 


4.2.2 k 均值 聚 类 原理 


动态 聚 类 方法 是 模式 识别 中 一 种 普遍 采用 的 方法 , 它 具 有 以 下 3 个 要 点 : 
(1) 选 定 某 种 距离 度量 作为 样本 间 的 相似 性 度量 。 


(2) 确定 某 个 评价 聚 类 结果 质量 的 准则 函数 。 

(3) 给 定 某 个 初始 分 类 ,然后 用 迭代 算法 找 出 使 准则 函数 取 极 值 的 最 好 的 聚 类 结果 。 

KK 均值 算法 是 基于 质心 的 技术 ,K 均值 算法 以 K 为 输入 参数 ,把 nn 个 对 象 集合 分 为 K 
个 得, 使 得 篮 内 的 相似 度 高 , 复 之 间 的 相似 度 低 。 簇 的 相似 度 是 关于 簇 中 对 象 的 均值 度量 ， 
可 以 看 作 是 簇 的 质心 。 

KK 均值 聚 类 算法 使 用 的 聚 类 准则 函数 是 误差 平方 和 准则 Jrx 


(| 
EA (4-7) 
j=1 k=1 
为 了 使 聚 类 结果 优化 ,应 该 使 准则 Jx 最 小 化 。 
(1) 给 出 个 混合 样本 , 令 I 王 1, 表示 迭代 次 数 ,选取 K 个 初始 聚合 中 心 Z;(D),j 二 1， 
Wis RE, 
(2) 计算 每 个 样本 与 聚合 中 心 的 距离 DLzxi,2;(D](k=1,2,…,n; j= 二 1,2,"…,K)。 
若 DLz,Z( DJ]= min {D[zi ,2; CD)],k=1,2,.,n} ,WW zr Ew 


ss } 
(3) 计算 KK 个 新 的 集合 中 心 : Z(I 十 1)= 工 en Re 
1 


9 


(4) 判断 ; 车 ZI 十 ]) 关 ZCDG=1,2,…,K), 则 I=1 十 1, 返 回 (2); 否则 ,算法 结束 。 
天 均值 算法 的 执行 过 程 如 图 4-1 所 示 。 
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图 4-1 天 均 值 聚 类 算法 执行 过 程 


接 下 来 介绍 初始 分 类 的 选取 和 调整 的 方法 。 

(1) 代表 点 也 就 是 聚 类 中 心 。 选 取 一 批 代表 点 ,计算 其 他 样本 到 聚 类 中 心 的 距离 ,把 所 
有 样本 归于 最 近 的 聚 类 中 心 点 ,形成 初始 分 类 , 青 重新 计算 各 聚 类 中 心 , 称 为 成 批 处 理 法 (本 
书 采用 此 法 )。 

(2) 选取 一 批 代表 点 后 ,依次 计算 其 他 样本 的 归 类 。 当 计算 完 第 1 个 样本 时 ,把 它 归于 
最 近 的 一 类 ,形成 新 的 分 类 。 然 后 计算 新 的 聚 类 中 心 ,再 计算 第 2 个 样本 到 新 的 聚 类 中 心 的 


距离 ,对 第 2 个 样本 进行 归 类 , 即 每 个 样本 的 归 类 都 改变 1 次 聚 类 中 心 。 此 法 称 为 逐个 处 
理 法 。 

(3) 直接 用 样本 进行 初始 分 类 , 先 规定 距离 &d ,把 第 1 个 样本 作为 第 一 类 的 聚 类 中 心 。 
考察 第 2 个 样本 , 若 第 2 个 样本 距 第 一 个 聚 类 中 心 的 距离 小 于 4d ,就 把 第 2 个 样本 归于 第 一 
类 ; 否则 ,第 2 个 样本 就 成 为 第 二 类 的 聚 类 中 心 。 再 考虑 其 他 样本 ,根据 样本 到 聚 类 中 心 的 
距离 大 于 还 是 小 于 4d ,决定 是 分 裂 还 是 合并 。 

(4) 最 佳 初始 分 类 。 

如 图 4-2 所 示 , 随 着 初始 分 类 K 的 增 大 ,准则 函数 下 降 很 快 ,经 过 拐点 A 后 ,下 降 速度 
减 慢 。 抛 点 A 就 是 最 佳 初始 分 类 。 

J 准则 函数 


下 降 快 


图 4-2 最 佳 初始 分 类 


4.2.3 k 均值 算法 的 优 缺点 


KK 均值 聚 类 算法 在 实际 生活 中 非常 实用 ,也 非常 方便 , 它 不 仅 能 够 使 得 烦琐 的 数据 在 
计算 当中 简单 化 ,而 且 使 用 范围 也 比较 广 。 例 如 , 它 在 对 交通 事故 多 发 地 带 的 分 析 方 面 尤为 
突出 。 下 面 是 关于 K 均值 算法 的 几 个 优点 : 

(1) 如 果 变 量 很 大 ,K 均值 比 层次 聚 类 的 计算 速度 更 快 。 

(2) 与 层次 聚 类 相 比 ,K 均值 可 以 得 到 更 紧密 的 簇 ,尤其 是 对 于 球状 簇 。 

(3) 大 数据 集合 ,效率 比较 高 。 

(4) 算法 尝试 找 出 使 平方 误差 函数 最 小 的 K 个 划分 。 当 结果 簇 是 密集 的 ,而 簇 与 簇 之 
间 区 别 明显 的 时 候 ,效果 较 好 。 

任何 事情 都 不 是 完美 的 ,虽然 K 均值 算法 在 实际 生活 中 非常 实用 ,但 是 它 也 有 不 足 的 
一 面 。 下 面 是 关于 K 均值 算法 的 几 点 不 足 : 

(1) 没有 指明 初始 化 均值 的 方法 。 常 用 的 方法 是 随机 地 选取 K 个 样本 作为 均值 。 

(2) 产生 的 结果 依赖 于 均值 的 初始 值 ,经 常 发 生得 到 次 优 划 分 的 情况 。 解 决 方法 是 多 
次 尝试 不 同 的 初始 值 。 

(3) 可 能 发 生 距 离 徐 中 心思 最 近 的 样本 集 为 空 的 情况 ,因此 mj 将 得 不 到 更 新 。 

(4) 不 适合 发 现 非 凸 面 形 状 的 簇 ,并 且 对 噪声 和 离 群 点 数据 是 比较 敏感 的 ,因为 少量 的 
这 类 数据 能 够 对 均值 产生 极 大 的 影响 。 


4.2.4 kK 均值 聚 类 的 MATLAB 实现 


以 表 1-2 所 示 的 样本 数据 为 例 , 说 明 K 均值 聚 类 的 MATLAB 实现 。 其 中 ,前 29 组 数 
据 已 确定 类 别 ; 后 30 组 数据 为 待 确定 类 别 。 
在 MATLAB 中 ,直接 调用 如 下 程序 即 可 实现 天 均值 聚 类 。 


[IDX,C, SUMD,D] = kmeans(data,K); 


其 中 ,data: 要 聚 类 的 数据 集合 ,每 一 行为 一 个 样本 ; IDX: 聚 类 结果 ; C: 聚 类 中 心 ; 
SUMD: 每 一 个 样本 到 该 聚 类 中 心 的 距离 和 ; D: 每 一 个 样本 到 各 个 聚 类 中 心 的 距离 ; K: 


分 类 的 个 数 。 

如 果 使 用 命令 [IDX,C,SUMD,D] = kmeans(data,4) 进行 聚 类 ,要 想 画 出 4 个 聚 类 的 
图 形 , 可 用 如 下 程序 代码 : 

D=D $$ 得 到 每 一 个 样本 到 四 个 聚 类 中 心 的 距离 


minD = min(D); 找到 每 一 个 样本 到 四 个 聚 类 中 心 的 最 小 距离 
indexl = find(D(1, :) ==min(D)) #% 找 到 属于 第 一 类 的 点 


index2 = find(D(2,:) ==min(D)) % 找 到 属于 第 二 类 的 点 
index3 = find(D(3, :) == min(D)) $ 找 到 属于 第 三 类 的 点 
index4 = find(D(4, :) == min(D)) # 找 到 属于 第 四 类 的 点 


为 了 提高 图 形 的 区 分 度 ,添加 如 下 命令 : 


line(datal( indexl,1),data(indexl,2),data( index1, 3), 'linestyle', 'none', 'marker', 'x* ', 'color', 'g'); 
line(data( index2, 1), data( index2, 2), datal( index2, 3), 'linestyle', 'none', 'marker', '* ', 'color', 'r'); 
line(data( index3, 1), data( index3, 2), data( index3, 3), 'linestyle', 'none', 'marker', ' + ', 'color', 'b'); 
line(data( index4, 1), data( index4, 2), datal( index4, 3), 'linestyle', 'none', 'marker', '+ ', 'color', 'y'); 


(1) 初始 分 类 的 选取 和 调整 。 

K 均值 算法 的 类 型 数目 假定 已 知 为 KR。 对 于 未 知 时 ,可 以 令 KK 逐渐 增加 。 使 用 KK 
均值 算法 ,误差 平方 和 Jx 随 K 的 增加 而 单调 减少 。 最初, 由 于 K 较 小 ,类 型 的 分 裂 会 使 Jr 
迅速 减 小 ,但 当 增加 到 一 定数 值 时 ,Jx 的 减 小 速度 会 减 慢 , 即 随 着 初始 分 类 K 的 增 大 , 准 
则 函数 下 降 很 快 ,经 过 拐点 后 ,下 降 速 度 减 慢 。 拐 点 处 的 K 值 就 是 最 佳 初始 分 类 。 

(2) 当 分 类 的 数目 天 一 2 时 ,调用 如 下 程序 实现 K 均值 聚 类 : 


[IDX,C, SOMD,D] = kmeans(data,2); 
SUMD = 
1.0e+007 * 
1.4810 
1.0599 
Jr =25.409 * 106 


(3) 当 分 类 的 数目 开 一 3 时 ,调用 如 下 程序 实现 K 均值 聚 类 : 


(4) 当 分 类 的 数目 天 一 4 时 ,调用 如 下 程序 实现 天 均值 聚 类 : 


(5) 当 分 类 的 数目 天 = 一 5 时 ,调用 如 下 程序 实现 K 均值 聚 类 : 


(6) 当 分 类 的 数目 天 =6 时 ,调用 如 下 程序 实现 天 均值 聚 类 : 


(7) 当 分 类 的 数目 K==7 时 :调用 如 下 程序 实现 天 均值 聚 类 : 


[IDX,C, SUMD,D] = kmeans(data,7); 
SUMD = 
1.0e+005 * 
3.2850 

2.0138 
2.7520 
3.1015 
5.3616 
3.7949 
353317 
2 


Jr =2.3641 * 106 


如 图 4-3 所 示 , 随 着 初始 分 类 K 的 增 大 ,准则 函数 下 降 很 快 ,经 过 拐点 后 ,下 降 速度 减 
。 拐 点 就 是 最 佳 初始 分 类 , 即 K 二 4 时 为 最 佳 初始 分 类 。 
准则 函数 
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图 4-3 最 佳 初始 分 类 图 
完整 分 类 的 MATLAB 源 程 序 代 码 如 下 : 


clear all; 

data=[ 

1702.8 1639.79 2068.74 
1877.93 1860.96 1973.3 
867.81 2334.68 2535.1 
1831.49 EE 1604.68 
460.69 3274.77 2172.99 
2374.98 3346.98 975.31 
2271.89 3482.97 946.7 
1783.64 1597.99 2261.31 
198.83 3250.45 2445.08 
1494.63 2072.59 2550.51 
1597.03 1921.52 2126.76 
1598.93 1921.08 1623.33 
1243.13 1814.07 3441.07 
2336.31 2640.26 1599.63 
354 3300.12 2373.61 


2144.47 2501. 62 591.54 


426.31 3105.29 2057.8 
1507.13 1556.89 1954.51 
343.07 3271.72 2036.94 


2201.94 3196.22 .3553 

2232.43 3077.87 1298.87 

1580.1 1752.07 2463.04 

1962.4 1594.97 1835.95 

1495.18 1957.44 3498.02 

L125 17 1594.39 2937.73 

24.22 3447.31 2145.01 

1269.07 1910; 72 2701.97 

1802.07 1725.81 1966.35 

1817.36 1927.4 2328.79 

1860.45 1782.88 1875.13 

虹 

[IDX,C,SUMD,D] = kmeans(data,4)7 

plot3(data( :,1),data( :,2), data(:,3),'* '); 

grid; 

D=D' 

minD= min(D); 

indexl = find(D(1,:) min(D)) 

index2 = find(D(2,:) ==min(D)) 

index3 = find(D(3,:) ==min(D)) 

index4 = find(D(4,:) ==min(D)) 

line(datal( indexl, 1), data( index1, 2), data( index]1, 3), 'linestyle', 'none', 'marker',' * ', 'color', 'g'); 
line(data( index2, 1), data( index2, 2), data( index?2, 3), 'linestyle', 'none', ‘marker','* ', 'color', 'r'); 
line(datal( index3, 1), data( index3, 2), data( index3, 3), 'linestyle', 'none', ‘marker',' + ', 'color', 'b'); 
line(datal( index4, 1), data( index4, 2), data( index4, 3), 'linestyle', 'none', 'marker','+ ', 'color', 'y'); 
title('K 均值 聚 类 分 类 图 '); 

xlabel( ' 第 一 特征 坐标 '); 

Ylabel( ' 第 二 特征 坐标 '); 

zlabel(' 第 三 特征 坐标 '); 


中 


4.2.5 人 待 聚 类 样本 的 分 类 结果 


待 聚 类 样本 按 下 述 步骤 分 类 。 
(1) 所 分 4 类 的 聚 类 中 心 C, 实 现代 码 如 下 : 


1.0e+03 关 
1.2964 1.9194 2.8753(indexl 聚 类 中 心 ) 
0.3012 3.2749 2.2052(index2 聚 类 中 心 ) 
2.2603 3.0410 1.0579(index3 聚 类 中 心 ) 
1.7583 1.7493 1.9655(index4 聚 类 中 心 ) 


(2) 所 分 的 4 类 ,实现 代码 如 下 : 


模式 识别 与 人 工 智能 (基于 MATLAB) 


indexl = 

3 10 
index2 = 

5 总 
index3 = 

6 7 
index4 = 

1 2 


i 22 
3 7 
14 16 
4 8 


25 27 
26 
21 
12 18 


23 


28 


29 


文件 (F) 坊 加 (查看 V) 插入 0) 工具 (桌面 (D) 贸 口 WW) 帮助 (H) 


BET EIS Pa WT 


30 


图 4-4 


4.2.6 结论 


对 30 个 样本 进行 分 类 的 MATLAB 程序 代码 运行 结果 如 下 : 


D = 
1.0e+06 * 
1 一 8 列 

0.8939 
4.6569 
352959 
0.0257 
9 一 16 列 
3.1615 


1.1516 
4.5383 
2.3803 
0.0269 


0.1683 


K 均 值 聚 类 分 类 图 


待 分 类 样本 K 均值 聚 类 MATLAB 分 类 图 界面 


0.4719 
1.3140 
4.6200 
1.4600 


0.6507 


1.9434 
5.1418 
2.2461 
0.1369 


1.6591 


3.0288 
0.0265 
4.5368 
4.0538 


0.3340 


6.8113 
5.8185 
0.1136 
3.9134 


3.2284 


了 .1159 
5.5109 
0.2079 
4.3074 


3.0463 


0.7177 
5.0130 
357576: 
0.1110 


6.2740 


0.0686 2.9892 3.5171 3.8557 4.5487 4.9113 0.0318 6.5998 
6.2179 3.7519 2.8356 2.0113 8.2194 0.4598 5.4323 0.5219 
4.9153 0.5162 0.0817 0.1720 2.4468 1.2618 4.5436 2.6030 

17 一 24 列 
2.8318 1.0238 3.4406 6.2130 4.7034 0.2785 1.6291 0.4287 
0.0662 4.4689 0.0301 5.2312 4.5900 4.0212 5.7183 4.8327 
4.3675 3.5737 4.6876 0.0425 0.0602 4.0984 2.7851 7.7136 
3.6214 0.1002 4.3257 3.3513 2.4343 0.2793 0.0823 2.4611 

25 一 30 列 
0.1389 4.4864 0.0309 1.1194 0.5701 1.3372 
4.0398 0.1100 3.0446 4.7095 4.1299 4.7665 
6.9149 “6.3471 4.9630 2.7649 3.0514 2.4106 
1.3700 5.9224 0.8077 0.0025 0.1672 0.0197 


其 中 ,D 为 每 个 样本 与 聚合 中 心 的 最 小 距离 。 


分 类 结果 如 下 : 
jindexl = 
3 10 13 22 24 25 27 
index2 = 
5 a 15 17 19 26 
index3 = 
6 7 14 16 20 2 
index4 = 
2 4 8 11 12 18 23 28 29 30 


通过 对 分 类 结果 的 验证 表明 ,该 算法 能 很 好 地 对 样本 进行 分 类 。 使 用 该 算法 得 到 的 结 
果 显 示 全 部 样本 分 类 结果 与 正确 样本 的 分 类 结果 完全 符合 。 

在 KK 均值 聚 类 算法 中 ,Kmeans 算法 主要 通过 迭代 搜索 获得 聚 类 的 划分 结果 。 虽 然 
Kmeans 算法 运算 速度 快 ,占用 内 存 小 , 比较 适合 于 大 样本 量 的 情况 ,但 是 聚 类 结果 受 初 始 
凝聚 点 的 影响 很 大 ,不 同 的 初始 点 选择 会 导致 截然 不 同 的 结果 。 并 且 当 按 最 近邻 归 类 时 ,如 
果 过 到 与 两 个 聚 类 中 心 距离 相等 的 情况 ,不 同 的 选择 也 会 造成 不 同 的 结果 。 因 此 ,KK 均值 
动态 聚 类 法 具有 因 初 始 聚 类 中 心 的 不 确定 性 而 存在 较 大 偏差 的 情况 。 

开 均 值 算法 使 用 的 聚 类 准则 函数 是 误差 平方 和 准则 。 在 算法 迭代 过 程 中 ,样本 分 类 不 
断 调整 ,因此 误差 平方 和 Jx 也 在 逐步 减 小 ,直到 没有 样本 调整 为 止 ,此 时 Jx 不 再 变化 , 聚 
类 达到 最 优 。 但 是 ,此 算法 中 没有 计算 Jx 值 , 也 就 是 说 Jx 不 是 算法 结束 的 明显 依据 。 因 
此 ,有 待 进一步 对 天 均值 算法 进行 改进 ,以 优化 K 均值 聚 类 算法 。 


数据 聚 类 一 一 基于 取样 思想 的 改进 K 均值 聚 类 


KK 均值 算法 属于 聚 类 技术 中 的 一 种 基本 划分 方法 ,具有 简单 .快速 的 优点 ,但 也 存在 因 
初始 聚 类 中 心 不 确 定性 而 存在 较 大 偏差 的 情况 。 为 此 对 开 均值 算法 的 初始 聚 类 中 心 选择 
方法 进行 了 改进 ,提出 了 一 种 从 数据 对 象 分 布 出 发 动态 寻找 并 确定 初始 聚 类 中 心 的 思路 以 


及 基于 这 种 思路 的 改进 算法 。 


4.3.1 kK 均值 改进 算法 的 思想 


在 均值 算法 中 ,选择 不 同 的 初始 聚 类 中 心 会 产生 不 同 的 聚 类 结果 且 有 不 同 的 准确 
率 , 此 方法 就 是 如 何 找 到 与 数据 在 空间 分 布 上 尽 可 能 一 致 的 初始 聚 类 中 心 。 对 数据 进行 划 
分 ,最 根本 的 目的 是 使 一 个 聚 类 中 的 对 象 是 相似 的 ,而 不 同 聚 类 中 的 对 象 是 不 相似 的 。 如 果 
用 距离 表示 对 象 之 间 的 相似 性 程度 ,相似 对 象 之 间 的 距离 比 不 相似 对 象 之 间 的 距离 要 小 。 
如 果 能 够 寻找 到 K 个 初始 中 心 ,它们 分 别 代 表 了 相似 程度 较 大 的 数据 集合 ,那么 就 找到 了 
与 数据 在 空间 分 布 上 相 一 致 的 初始 聚 类 中 心 。 

目前 ,选取 初始 聚 类 中 心 的 方法 有 很 多 种 ,在 此 仅 介绍 两 种 。 


1. 基于 最 小 距离 的 初始 聚 类 中 心 选 取 法 


(1) 计算 数据 对 象 两 两 之 间 的 距离 。 

(2) 找 出 距离 最 近 的 两 个 数据 对 象 ,形成 一 个 数据 对 象 集合 Ai ,并 将 它们 从 总 的 数据 
集合 U 中 删除 。 

(3) 计算 A, 中 每 一 个 数据 对 象 与 数据 对 象 集合 U 中 每 一 个 样本 的 距离 , 找 出 在 U 中 
与 Ai 中 最 近 的 数据 对 象 , 将 它 并 入 集合 A; 并 从 U 中 删除 ,直到 Ai 中 的 数据 对 象 个 数 到 达 
一 定 阀 值 。 

(4) 再 从 U 中 找到 样本 两 两 间距 离 最 近 的 两 个 数据 对 象 构 成 A: ,重复 上 面 的 过 程 , 直 
到 形成 上 个 对 象 集合 。 

(5) 最 后 对 让 个 对 象 集合 分 别 进行 算术 平均 ,形成 个 初始 聚 类 中 心 。 

这 种 方法 和 Huffman 算法 一 样 。 


2. 基于 最 小 二 叉 树 的 方法 


(1) 计算 任意 两 个 数据 对 象 间 的 距离 4(x,y), 找 到 集合 U 中 距离 最 近 的 两 个 数据 对 
象 ,形成 集合 Au (1 三 mk) ,并 从 集合 U 中 删除 这 两 个 对 象 。 

(2) 在 U 中 找到 距离 集合 A 最 近 的 数据 对 象 ,将 其 加 入 集合 A ,并 从 集合 U 中 删除 
该 对 象 。 


(3) 重复 步骤 (2) ,直到 集合 中 的 数据 对 象 个 数 大 于 等 于 aX 丰 (0<a<1)。 


(4) 如 果 wk, 则 x 二 m 十 1, 青 从 集合 U 中 找到 距离 最 近 的 两 个 数据 对 象 ,形成 新 的 
集合 Au(1 近 ms<A) ,并 从 集合 U 中 删除 这 两 个 数据 对 象 ,返回 步骤 (2) 执 行 。 

(5) 将 最 终 形成 的 & 个 集合 中 的 数据 对 象 分 别 进行 算术 平均 ,从 而 形成 上 个 初始 聚 类 
中 心 。 


说 明 : aX 字 的 取 值 会 因 实 验 数 据 的 不 同 而 有 所 不 同 。 a 让 的 取 值 过 小 ,将 使 几 个 初 


始 聚 类 中 心 点 聚集 在 同一 区 域 ; <X 帮 的 取 值 过 大 ,又 会 使 初始 聚 类 中 心 点 偏离 密集 区 域 。 


第 4 章 聚 类 分 析 


所 以 , 阔 值 <X 帮 需要 从 多 次 实验 中 获取 。 
从 这 上 个 初始 聚 类 中 心 出 发 ,应 用 K 均值 聚 类 算法 形成 最 终 聚 类 。 


4.3.2 基于 取样 思想 的 改进 K 均值 算法 MATLAB 实现 


首先 对 样本 数据 采用 K 均值 算法 进行 聚 类 ,产生 一 组 聚 类 中 心 ,然后 将 这 组 聚 类 中 心 
作为 初始 聚 类 中 心 ,再 采用 K 均值 算法 进行 聚 类 。 

在 此 ,也 可 以 在 第 一 步 中 ,对 样本 数据 采用 K 均值 算法 进行 次 聚 类 运算 ,每 次 产生 一 
组 聚 类 中 心 ,对 并 个 聚 类 中 心 进行 算术 平均 ,从 而 得 到 A 个 初始 聚 类 中 心 。 

确定 初始 聚 类 中 心 的 MATLAB 程序 如 下 : 


[IDX,C] = kmeans(data,k) 


其 中 ,IDX: 聚 类 结果 ; C: 聚 类 中 心 ; k: 分 类 个 数 ; data: 要 聚 类 的 数据 集合 ,每 一 行为 一 
个 样本 。 
运行 MATLAB 程序 代码 后 ,得 到 的 初始 聚 类 中 心 如 下 : 


C = 
1.0e+003 * 
2.3327 3.0789 L0759 
3 1.7356 1.9762 
1.2106 1.8780 2.9579 
0.3010 3.2228 2.2502 


基于 取样 思想 的 改进 K 均值 算法 程序 如 下 : 


function yy = kmeans2() 

data = [1739.94 1675.15 2395.96 #% 样本 空间 
373.3 3087.05 2429.47 
1756.77 1652 1514.98 
864.45 1647.31 2665.9 
222.85 3059.54 2002.33 
877.88 2031.66 3071.18 
1803.58 1583.12 2163.05 
2352512 2557 04 Tallss 
401.3 3259.94 2150.98 
363.34 3477.95 2462.86 
1571.17 1731.04 1735.33 
104.8 3389.83 2421.83 
499.85 3305.75 2196.22 
2297.28 3340.14 535.62 
2092.62 3177.21 584.32 
1418.79 1775.89 2772.9 
1845.59 1918.81 2226.49 
2205.36 3243.74 1202.69 


562)、 模式 识别 与 人 工 智能 (基于 MATLAB) 


2949.16 3244.44 
1692.62 1867.5 
1680.67 1575.78 
2802.88 3017.11 
172.78 3084.49 
2063.54 3199.76 
1449.58 1641.58 
1651.52 1713.28 
341.59 3076.62 
291.02 3095.68 
237.63 3077.78 
1702.8 1639.79 
1877.93 1860.96 
867.81 2334.68 
1831.49 1713.11 
460.69 3274.77 
2374.98 3346.98 
2271.89 3482.97 
1783.64 1597.99 
198.83 3250.45 
1494.63 2072.59 
1597.03 1921.52 
1598.93 1921.08 
1243.13 1814.07 
2336.31 2640.26 
354 3300.12 
2144.47 2501.62 
426.31 3105.29 
SO S3009 
343.07 3271.72 
2201.94 3196.22 
2232.43 3077.87 
1580.1 1752.07 
1962.4 1594.97 
1495.18 1957.44 
1125.17 1594,39 
24.22 3447.31 
1269.07 1910.72 
1802.07 1725.81 
1817.36 1927.4 
1860.45 1782.88 
J; 

[IDX,C] = kmeans(data, 4); 

C 

y= [1:591; 

z= [data, IDX]'; 

x= [zy]; 

w= [l= = [x4= 

for i =1:59 

if x(4,i) ==1 
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a 模式 识别 与 人 工 智能 (基于 MATLAB) 


运行 MATLAB 程序 代码 后 ,结果 如 下 : 


1 一 6 列 
1739.9 1756.8 1803.6 
1675.2 65200 lea 
2396 L515 21631 
1 3 9 
7 一 12 列 
1680.7 1651.5 1702.8 
1575.8 1713.3 1639.8 
1725.1 1570.4 2068.7 
21 26 30 
13 一 18 列 
1597 1598.9 1507.1 
T9215 To21 09 
2126.8 1623.3 1954.5 
40 41 47 
19 一 20 列 


BET FI EE Pa 


1571.2 
1731 
1735.3 
11 


1877.9 
1861 
14194533 
3 


1580.1 
1752.1 
2463 
5 


1845.6 
1918.8 
2226.5 

1 


1831.5 
YE 
1604.7 


1692.6 
1867.5 
2109 
20 


1783.6 
1598 
2261.3 
37 


1802.1 
1725.8 
1966.3 

57 


4-5 分 类 效果 图 界面 


4.3.3 结论 


本 节 鉴 于 初始 聚 类 中 心 对 K 均值 聚 类 算法 的 影响 ,以 及 开 均值 聚 类 算法 的 不 足 , 构 造 
了 改进 下 均值 的 聚 类 算法 。 该 算法 通过 两 种 方法 选取 初始 聚 类 中 心 , 然 后 在 给 定 初始 聚 类 
中 心 的 基础 上 再 次 使 用 K 均值 聚 类 算法 ,从 而 得 出 聚 类 结果 。 全 部 样本 与 已 知 样本 完全 
符合 。 


数据 聚 类 一 K- 近 邻 法 聚 类 


4.4.1 K- 近 邻 法 简介 


K- 近 邻 法 分 类 器 是 一 种 在 线 分 类 器 , 即 分 类 的 时 候 ,直接 从 训练 样本 中 找 出 与 测试 样 
本 最 接近 的 开 个 样本 ,以 判断 测试 样本 的 类 属 。K- 近 邻 法 分 类 器 的 可 扩展 性 比较 差 , 因 为 
每 判决 一 个 测试 样本 ,都 要 将 其 与 所 有 训练 样本 比较 一 次 ,计算 距离 。 但 是 K- 近 邻 法 分 类 
器 对 处 理 与 训练 样本 类 似 情况 的 时 候 的 精度 比较 高 。 所 以 在 样本 比较 少 而 对 分 类 速度 要 求 
不 高 的 情况 下 ,可 以 使 用 K- 近 邻 法 分 类 器 。 同 样 K- 近 邻 法 分 类 器 也 可 以 应 用 在 只 有 正 例 
训练 样本 的 情况 下 。 在 小 规模 仿真 的 时 候 使 用 精度 较 高 的 K- 近 邻 法 分 类 器 ,在 大 规模 仿真 
和 实际 网 络 检 验 的 时 候 避 免 使 用 K- 近 邻 法 分 类 器 。 

可 以 看 出 ,尽管 K- 近 邻 法 有 其 优良 品质 ,但 是 它 的 一 个 致命 弱点 是 需要 存储 全 部 训练 
样本 ,以 及 繁重 的 距离 计算 量 。 但 以 简单 的 方式 降低 样本 数量 ,只 能 使 其 性 能 降低 ,这 也 是 
使 用 者 不 愿意 接受 的 。 

K- 近 邻 法 的 思想 如 下 : 首先 ,计算 新 样本 与 训练 样本 之 间 的 距离 ,找到 距离 最 近 的 开 
个 近邻 ,看 天 个 近邻 多 数 属于 哪 一 类 ,就 把 新 样本 分 为 哪 一 类 ,通常 玉 是 不 大 于 20 的 整数 。 

例如 ,图 4-6 中 天 ==3 时 , 即 选择 最 近 的 3 个 点 ,判断 它 和 a 


m 2 沁 a 


们 的 类 别 , 于 是 可 以 得 出 圆 形 的 输入 实例 应 该 为 三 角形 ; 同 2 


理 , 当 K=5 时 ,结果 变 成 方形 ,此 时 测试 样本 X 被 归 类 为 方 上 甸 和 

形 类 别 。 四 人 : 
K- 近 邻 法 优点 : 实现 简单 ,应 用 范围 广 ,分 类 效果 好 。 所 2 
K- 近 邻 法 缺点 : 样本 小 时 误差 难 控制 ,存储 所 有 样本 ， re 


需要 较 大 存储 空间 ,对 于 大 样本 的 计算 量 大 。 图 4-6 K- 近 邻 法 


4.4.2 K- 近 邻 法 的 算法 研究 


1. K- 近 邻 法 的 数学 模型 


用 最 近邻 方法 进行 预测 的 理由 是 基于 假设 : 近邻 的 对 象 具 有 类 似 的 预测 值 。 最 近邻 算 
法 的 基本 思想 是 在 多 维 空间 R" 中 找到 与 未 知 样本 最 近邻 的 K 个 点 ,并 根据 这 天 个 点 的 类 


别 来 判断 未 知 样本 的 类 。 这 K 个 点 就 是 未 知 样本 的 K- 最 近邻 。 算 法 假设 所 有 的 实例 对 应 
于 nn 维 空 间 中 的 点 。 一 个 实例 的 最 近邻 是 根据 标准 欧 氏 距离 定义 , 设 x 的 特征 向 量 为 
[ai(x) ,az (x) ,an (Tr)]。 

其 中 ,ar(z) 表 示 实 例 z 的 第 7 个 属性 值 。 两 个 实例 xz; 和 zz 间 的 距离 定义 为 d(xi,zj)， 


其 中 
d(xio27) = ,Darzi) — ar(z))’ (4-8) 
r=1 


在 最 近邻 学 习 中 ,离散 目标 分 类 函数 为 f:R">V, 其 中 V 是 有 限 集合 {vi ,v2，…,v,}), 即 
各 不 同 分 类 集 。 最 近邻 数 K 值 的 选取 是 根据 每 类 样本 中 的 数目 和 分 散 程度 进行 的 ,对 不 同 
的 应 用 可 以 选取 不 同 的 天 值 。 

如 果 未 知 样本 s; 周围 的 样本 点 的 个 数 较 少 ,那么 个 点 所 覆盖 的 区 域 将 会 很 大 ,反之 
则 小 。 因 此 K- 近 邻 法 易 受 噪声 数据 的 影响 ,尤其 是 样本 空间 中 的 孤立 点 的 影响 。 其 根源 在 
于 基本 的 K- 最 近邻 算法 中 , 待 预测 样本 的 K 个 最 近邻 样本 的 地 位 是 平等 的 。 在 自然 社会 
中 ,通常 一 个 对 象 受 其 近邻 的 影响 是 不 同 的 ,通常 是 距离 越 近 的 对 象 对 其 影响 越 大 。 


2. KK- 近邻 法 的 研究 方法 

该 算法 没有 学 习 的 过 程 , 在 分 类 时 通过 类 别 已 知 的 样本 对 新 样本 的 类 别 进行 预测 ,因此 
属于 基于 实例 的 推理 方法 。 如 果 取 K 三 1, 待 分 样本 的 类 别 就 是 最 近邻 居 的 类 别 , 称 为 
KNN 算法 。 

只 要 训练 样本 足够 多 ,K- 近 邻 法 就 能 达到 很 好 的 分 类 效果 。 当 训练 样本 数 趋 近 于 一 ce 
时 ,K- 近 邻 法 的 分 类 误差 最 差 是 最 优 贝 叶 斯 误差 的 两 倍 ; 当 开 趋 近 于 ce 时 ,K- 近 邻 法 的 分 
类 误差 收敛 于 最 优 贝 叶 斯 误差 。 以 下 是 对 K- 近 邻 算 法 的 描述 : 

(1) 构建 训练 样本 集 和 测试 样本 集 。 

(2) 设 定 KK 值 , 一 般 先 确定 一 个 初始 值 , 然 后 根据 实验 结果 调整 到 最 优 。 

(3) 计算 测试 样本 和 训练 样本 的 欧 氏 距离 。 

(4) 选择 天 个 近邻 的 样本 ,将 计算 出 的 距离 降序 排列 ,选择 距离 相对 较 小 的 天 个 样本 
作为 测试 样本 的 KK 个 近邻 。 

(5) 找 出 主要 类 别 ,根据 KK 个 近邻 类 别 ,并 应 用 最 大 概率 对 所 查询 的 测试 样本 进行 分 
类 。 所 用 概率 是 指 每 一 个 类 别 出 现 KK 个 近邻 的 比例 ,根据 每 一 类 别 出 现在 天 个 近邻 中 的 
样本 数量 除 以 天 来 计算 ,为 个 近邻 中 每 一 类 别 样本 数量 的 集合 。 

(6) 统计 KK 个 最 近邻 样本 中 每 个 类 别 出 现 的 次 数 。 

(7) 选择 出 现 频率 最 高 的 类 别 作 为 未 知 样本 的 类 别 。 

输入 : 训练 集 和 测试 集 所 选 的 数据 集 是 标准 的 完整 三 元 色 数 据 。 

输出 : 数据 data 的 类 别 号 。 


3. K- 近 邻 法 需要 解决 的 问题 


1) 寻找 适当 的 训练 数据 集 
训练 数据 集 应 该 是 对 历史 数据 的 一 个 很 好 的 覆盖 ,这 样 才 能 保证 K- 近 邻 法 有 利于 预 
测 ,选择 训练 数据 集 的 原则 是 使 各 类 样本 的 数量 大 体 一 致 ,另外 ,选取 的 历史 数据 要 有 代表 
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人 性。 常用 的 方法 是 按照 类 别 把 历史 数据 分 组 ,然后 再 由 每 组 中 选取 一 些 有 代表 性 的 样本 组 
成 训练 集 。 这 样 既 降低 了 训练 集 的 大 小 ,又 保持 了 较 高 的 准确 度 。 

2) 确定 距离 函数 

距离 函数 决定 了 哪些 样本 是 待 分 样本 的 KK 个 最 近邻 , 它 的 选取 取决 于 实际 的 数据 和 决 
策 问 题 。 如 果 样 本 是 空间 中 点 ,最 常用 的 是 欧 几 里 得 距离 。 其 他 常用 的 距离 函数 是 绝对 距 
离 . 平 方差 和 标准 差 。 

3) 决定 的 取 值 

多 数 法 是 最 简单 的 一 种 综合 方法 ,从 邻居 中 选择 一 个 出 现 频率 最 高 的 类 别 作 为 最 后 的 
结果 ,如 果 频 率 最 高 的 类 别 不 止 一 个 ,就 选择 最 近邻 的 类 别 。 权 重 法 是 较 复杂 的 一 种 方法 ， 
它 对 个 最 近邻 居 设置 权重 ,距离 越 大 ,权重 就 越 小 。 在 统计 类 别 时 ,计算 每 个 类 别 的 权重 
和 ,最 大 的 那个 就 是 新 样本 的 类 别 。 

4) K 值 的 选取 

如 果 K 值 过 小 ,将 会 对 数据 中 存在 的 噪声 过 于 敏感 : 如 果 K 值 过 大 ,近邻 中 可 能 包含 
属于 其 他 类 的 样本 ; 一 个 经 验 的 取 值 法 则 为 KVg ,9 为 训练 样本 的 数目 。 商 业 算法 通常 
以 10 作为 默认 值 。 


4.4.3 KK- 近邻 法 数据 分 类 器 的 MATLAB 实现 


以 表 1-2 所 示 数 据 为 例 , 说 明 K 均值 聚 类 的 MATLAB 实现 。 其 中 ,前 29 组 数据 已 确 
定 类 别 , 后 30 组 数据 待 确定 类 别 。 


1. KNN 函数 介绍 
在 MATLAB 中 首先 建立 KNN 函数 的 m 文件 ,代码 如 下 : 
function [label test] = knn(k,data train,label train, data test) 


error(nargchk(4,4,nargin)); 

和 计算 出 新 的 特征 参数 与 表 1-2 中 参数 的 距离 

dist = 12 distance(data train, data test); 

对 距离 进行 排序 

[sorted dist, nearest] = sort(dist); 

名 选 出 最 近 的 特征 

nearest = nearest(1:k,:); 

用 最 近 的 特征 的 故障 类 型 ,作为 新 的 特征 参数 的 故障 类 型 
label test = label train(nearest); 


其 中 function [label_test] 二 knn(k,data_train,label_train,data_test) 为 定义 的 knn 
功能 函数 , 它 具 有 4 个 参数 , 即 K 值 . 训 练 数据 .训练 数据 分 类 及 测试 数据 。 该 函数 的 返回 
值 是 测试 样本 的 分 类 结果 。 

2. 欧 氏 距离 函数 

K- 近 邻 法 分 类 器 要 计算 数据 与 数据 的 距离 ,就 需要 用 到 欧 氏 距离 函数 。 该 算法 定义 的 


欧 氏 距离 的 m 文件 代码 如 下 : 


functiond = 12 _ distance(X,Y) 
计算 出 x,Y 之 间 的 欧 氏 距离 
if (nargin < 2) 
[DN] = size(X); 
lengths = sum(X.*2,1); 
d = repmat(lengths,[N1]) + repmat(lengths',[1 N]); 
晴 宇 本 二 2 
else 
XX 


om( 2) 
7 om 
d = repmat(XX',[1 size(Y,2)]) + repmat(YY,[size(X,2) 1]); 
d=d- 2xX'xYy; 


3. MATLAB 完整 程序 
本 例 K- 近 邻 法 的 完整 MATLAB 程序 如 下 : 


clear; 
clc; 
DATA = load('D. mat'); 
$6 绘制 训练 数据 图 
first = DATA.train data(DATA. train label ==1,:,:); 
second = DATA. train data(DATA. train label = 
third = DATA.train data(DATA. train label == 3,:,:); 
fourth = DATA. train data(DATA. train label == 4,:,:); 
figure; 
Beatter3(first(:,1), first(:,2), firet(:,.3),"*")s 
hold on 
scatter3( second( :,1), second(:,2), second(:,3), 'p'); 
scatter3(third(:,1), third(:,2), third(:,3), 's'); 
scatter3(fourth( :,1), fourth(:,2),fourth(:,3), '0'); 
title(' 训 练 数据 ') ;legend(' 第 1 类 ', ' 第 2 类 ', ' 第 3 类 ',' 第 4 类 '); 
名 % KNN 寻 优 
acc = zeros(10,1); 
fork = 1:10 
% KNN 算法 
label test = knn(k,DATA.train data',DATA. train label',DATA. test data'); 
名 计算 最 终结 果 
if k == 
testResults = label test; 
else 
[maxCount, idx] = max(label test); 
testResults = maxCount; 


end 
s 存储 各 分 类 结果 
RESULTS(k, :) = testResults; 
多 计算 正确 率 
count = 0; 
for i=1:30 
if (testResults(i) == DATA. test label(i)) 
count = count +1; 
end 
end 
acc(k) = count/30; 
end 
disp( "精度 : ') 
disp(acc); 
% 求 出 最 优 K 
[~,K] = max(acc); 
disp( ,最 佳 的 K 值 为 : '); 
disp(K); 
% 绘制 K=1 时 的 样本 训练 数据 图 ,并 在 命令 行 窗口 显示 分 类 
%% 使 用 最 优 K 进行 一 次 测试 
label test = knn(K,DATA. train data',DATA. train label',DATA. test_data') 7 
if K ==1 
testResults = label test 
else 
[maxCount, idx] = max(label test); 
testResults = maxCount 
end 
%sg% 绘制 测试 数据 图 
first = DATA. test data(testResults ==1,:,:); 
second = DATA. test datal(testResults == 2,:,:); 
third = DATA. test data(testResults == 3,:,:); 
fourth = DATA. test datal(testResults == 4,:,:); 


figure; 

Denttera( TAret( 1) Tirat( or Eiret( 3 ey 

hold on 

scatter3( second( :, 1), second( :, 2), second( :,3), 'p'); 
scatter3(third(:,1), third(:,2), third( :, 3), 's'); 
scatter3(fourth( :,1), fourth( :,2), fourth( :, 3), 'o0'); 

title(' 测 试 数据 ') ;legend( ' 第 1 类 ', ' 第 2 类 ',' 第 3 类 ',' 第 4 类 '); 


单 步 运行 该 程序 ,首先 会 出 现 测试 样本 的 分 类 图 页 面 ,如 图 4-7 所 示 。 
继续 运行 程序 ,将 出 现 测 试 样本 分 类 结果 ,如 图 4-8 所 示 。 
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4-8 测试 样本 分 类 图 页 面 
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程序 运行 完 之 后 ,在 命令 窗口 出 现 如 下 运行 结 

testResults = 

1~15 列 

3 > # 3 4 2 2 这 4 1 3 2 
4 

16 一 30 列 

2 4 E; 得 2 2 3 3 和 下 4 1 3 3 
汪 


将 KNN 分 类 器 的 分 类 结果 与 K 均值 分 类 器 的 分 类 结果 作 比 较 ,如 表 4-1 所 示 。 
表 4-1 KNN 分 类 器 的 分 类 结果 


序 号 A B 交 到 均值 分 类 结果 | KNN 分 类 

1 1702.8 1639. 79 2068. 74 3 

2 1877. 93 1860. 96 1975. 3 3 3 
3 867. 81 2334. 68 2535. 1 1 于 
4 1831. 49 1604. 68 3 3 
5 460, 69 #172, 0 4 4 
6 975. 31 这 

和 946.7 2 2 
8 1783. 64 1597. 99 2261.31 3 3 
9 4 4 
10 1 
11 

12 

13 1 

14 2 

15 4 

16 

17 4 4 
18 3 3 
19 4 4 
20 铸 2 
21 2 2 
本 1 3 
23 3 3 
24 1 1 
25 1 1 
26 4 4 
27 1269.07 1910.72 2701 1 1 
28 1802.07 1966. 35 3 3 
29 1817. 36 1927.4 2 3 3 
30 1860. 45 1782. 88 1875. 13 3 


从 表 4-1 中 可 以 看 出 ,'K- 近 邻 法 和 天 均值 分 类 仅 有 一 个 分 类 不 一 致 , 即 (1580. 1,1752. 07， 
2463. 04) 。 


4.4.4 结论 


本 KK- 近邻 法 数据 分 类 器 基本 实现 了 数据 分 类 ,并 且 对 数据 测试 结果 表明 : 基本 实现 了 
预定 目标 ,达到 分 类 的 效果 。 

K- 近 邻 法 具有 主观 性 ,因为 必须 定义 一 个 距离 尺度 ,分 类 的 结果 完全 依赖 使 用 的 距离 。 
这 样 对 于 用 一 组 数据 ,利用 K- 近 邻 法 两 个 不 同 的 分 类 算法 会 产生 两 种 基本 相同 的 分 类 结 
果 , 一 般 需 要 专家 来 评测 结果 是 否 有 效 。 由 于 对 结果 的 认识 往往 是 属于 经 验 性 的 ,因此 限制 
了 各 种 距离 公式 的 使 用 。 


俊 引 数 据 聚 类 一 PAM 聚 类 


4.5.1 PAM 算法 简介 


围绕 中 心 点 的 划分 (partitioning around medoids,PAM) 是 聚 类 分 析 算 法 中 划分 法 的 一 
种 聚 类 方法 ,是 最 早 提 出 的 KK 中心 点 算法 之 一 。 

如 今 数据 挖掘 理论 越 来 越 广泛 地 应 用 在 商业 ,制造 业 ,金融 业 、 医 药 业 、 电 信 业 等 许多 领 
域 。 数 据 挖掘 的 目标 之 一 是 进行 聚 类 分 析 。 聚 类 就 是 把 一 组 个 体 按照 相似 性 归 成 若干 类 
别 , 它 的 目的 是 使 得 属于 同一 类 别 的 个 体 之 间 的 差别 尽 可 能 小 ,而 不 同 种 类 别 上 的 个 体 间 的 
差别 尽 可 能 大 。PAM 聚 类 算法 是 众多 聚 类 算法 之 一 。PAM 算法 的 优势 在 于 : PAM 算法 
比 KK 均值 算法 更 健壮 ,对 噪声 和 孤立 点 数据 不 敏感 ; 它 能 够 处 理 不 同类 型 的 数据 点 ; 它 对 
小 的 数据 集 非 常 有 效 。 


4.5.2 ”PAM 算法 的 主要 流程 


对 于 PAM 算法 , 它 的 输入 是 簇 的 数目 & 和 包含 n 个 对 象 的 数据 库 ; 输出 是 个 簇 ,使 
得 所 有 对 象 与 其 最 近 中 心 点 的 相 异 度 总 和 最 小 。 

PAM 算法 的 主要 流程 如 下 : 

(1) 任意 选择 个 对 象 作为 初始 的 簇 中 心 点 。 

(2) Repeat( 重 复 )。 

(3) 指派 每 个 剩余 对 象 给 离 它 最 近 的 中 心 点 所 表示 的 簇 。 

(4) Repeat。 

(5) 选择 一 个 未 被 选择 的 中 心 点 Oi。 

(6) Repeat。 

(7) 选择 一 个 未 被 选择 过 的 非 中 心 点 对 象 O;。 


(8) 计算 用 O; 代替 O; 的 总 代价 并 记录 在 S 中 。 

(9) 直到 所 有 非 中 心 点 都 被 选择 过 。 

(10) 直到 所 有 的 中 心 点 都 被 选择 过 。 

(11) 如 果 在 S 中 的 所 有 非 中 心 点 代替 所 有 中 心 点 后 的 计算 出 总 代价 有 小 于 0 的 存在 ， 
那么 找 出 S 中 的 用 非 中 心 点 替代 中 心 点 后 代价 最 小 的 一 个 ,并 用 该 非 中 心 点 替代 对 应 的 中 
心 点 ,形成 一 个 新 的 上 个 中 心 点 的 集合 。 

(12) 直到 没有 青 发 生 簇 的 重新 分 配 , 即 所 有 的 S 都 大 于 0。 

PAM 算法 需 用 簇 中 位 置 最 靠近 中 心 的 对 象 作为 代表 对 象 ,然后 反复 地 用 非 代 表 对 象 
来 代替 代表 对 象 , 试 图 找 出 更 好 的 中 心 点。 在 反复 迭代 的 过 程 中 ,所 有 可 能 的 “对 象 对 ”被 分 
析 ,每 对 中 的 一 个 对 象 是 中 心 点 , 另 一 个 是 非 代 表 对 象 。 一 个 对 象 代表 可 以 被 最 大 平方 - 误 
差 值 减少 的 对 象 代替 。 

一 个 非 代表 对 象 0; 是 否 是 当前 一 个 代表 对 象 0; 的 一 个 好 的 替代 ,对 于 每 个 非 中 心 点 
对 象 0;, 有 以 下 四 种 情况 需要 考虑 。 

情况 一 如 图 4-9 所 示 ,O; 当前 隶属 于 Oi;, 如 果 O; 被 O 替换 , 且 O; 离 另 一 个 O 最 近 ， 
那么 O; 被 分 配给 0,, 则 替换 代价 为 Ci 二 d(j,m) 一 d(j ,让 。 

情况 二 如 图 4-10 所 示 ,O; 当前 隶属 于 O;, 如 果 O; 被 0; 替换 , 且 O; 离 O; 最 近 , 那 么 O; 
被 分 配给 O; , 则 替换 代价 为 Cis 二 dGj,h) 一 d(j ,i)。 


i / 


“0, 、 


图 4-9 情况 一 数据 分 布 图 图 4-10 情况 二 数据 分 布 图 


情况 三 如 图 4-11 所 示 ,O; 当前 隶属 于 O，,m! ==i, 如 果 O; 被 O 替换 , 且 0O; 仍然 离 Ow 
最 近 , 那 么 O; 被 分 配给 O。, 则 蔡 换 代价 为 Cis 二 0。 

情况 四 如 图 4-12 所 示 ,O; 当前 隶属 于 0;,m! 二 i, 如果 0O; 被 0; 替换 , 且 0; 离 0; 最 
近 , 那 么 O 被 分 配给 O; , 则 替换 代价 为 Ci 二 dj ,hh) 一 d(j,m)。 


CC 3 jy 
1 
1 
六 莉 
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图 4-11 情况 三 数据 分 布 图 图 4-12 情况 四 数据 分 布 图 


每 当 重 新 分 配 发 生 时 ,平方 -误差 E 所 产生 的 差别 对 代价 函数 有 影响 。 因 此 ,如 果 一 个 
当前 的 中 心 点 对 象 被 非 中 心 点 对 象 所 代替 , 则 代价 函数 计算 平方 -误差 值 会 产生 差别 ,替换 
的 总 代价 是 所 有 非 中 心 点 对 象 所 产生 的 代价 之 和 。 如 果 总 代价 是 负 的 ,那么 实际 的 平方 - 误 
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差 将 会 减 小 ,O; 可 以 被 0; 替代 ; 如 果 总 代价 是 正 的 , 则 当前 的 中 心 点 O; 被 认为 是 可 接受 
的 ,在 本 次 迭代 中 没有 变化 。 


4.5.3 ”PAM 算法 的 MATLAB 实现 


1. PAM 函数 的 定义 


在 MATLAB 中 有 KPAM 的 工具 箱 , 通 过 在 MATLAB 命令 窗口 输入 help kpam 命令 
就 可 以 查看 PAM 算法 的 具体 程序 。 下 面 仅 介绍 KPA 功能 函数 的 直接 调用 方法 ,该 函数 说 
明 如 下 : 


$% function [result,c, s, index, label] = kpam(data, k) 
多 result 表示 聚 类 结果 


s%c 表示 聚 类 最 后 的 中 心 点 

index 表示 随机 排列 的 行 号 

label 表示 数据 每 一 行 属于 第 几 个 中 心 点 
随机 选择 k 个 中 心 点 


2， MATLAB 完整 程序 
将 三 元 色 的 后 30 组 数据 进行 聚 类 ,PAM 数据 分 类 的 完整 程序 如 下 : 


外 function [result,c, s, index, label] = kpam(data, k) 

#% result 表示 聚 类 结果 

s%c 表示 聚 类 最 后 的 中 心 点 

index 表示 随机 排列 的 行 号 

label 表示 数据 每 一 行 属 于 第 几 个 中 心 点 

随机 选择 k 个 中 心 点 

clc;clear all; 

data= [1702.8 1639.79 2068.74 
1977.93| 1860.96 1975.3 
867.81 2334.68 2535.1 
1831.49 1713.11 1604.68 
460.69 3274.77 2172.99 
2374.98 3346.98 975.31 
2271.89 3482.97 946.7 
1783.64 1597.99 2261.31 
198.83 3250.45 2445.08 
1494.63 2072.59 2550.51 
1597.03 1921.52 2126.76 
159893 4921.08 1623233 
1243.13 1814.07 3441.07 
2336.31 2640.26 1599.63 
354 3300.12 2373.61 
2144.47 2501.62 591.51 
426.31 3105.29 2057.8 
1507.131 1556.89 1954.51 


模式 识别 与 人 工 智能 (基于 MA 


全 


end 
end 
a= index(i); 
b= index(h); 
index(i) =b; 
index(h) =a; 
end 
名 所 有 的 s 都 大 于 0 则 聚 类 完成 
if min(min(s))>0 
end 
% end 
for i=1:k 
for j=1:N 
if label(j)= 
result(j, :,i) = data(j,:) 
line(result(:,1,1), result(:,2,1), result(:,3,1), 'linestyle', 'none', 'marker', ' * ', 'color', 'g'); 
line(result(:,1,2), result(:,2,2), result( :,3,2), 'linestyle', 'none', 'marker', '0', 'color', 'b'); 
line(result(:,1,3), result(:,2,3), result( :,3,3), 'linestyle', 'none', 'marker', ' + ', 'color', 'r'); 
line(result(:,1,4), result(:,2,4), result( :,3,4), 'linestyle', 'none', 'marker', '(@', 'color', 'y'); 
line(data( :,1), data( :,2), data( :, 3), 'linestyle', 'none', 'marker', ' * ', 'color', 'r'); 
line(datal( :,1), data( index3, 2), data( index3, 3), 'linestyle', 'none', 'marker', ' + ', 'color', 'b'); 
% line(data( index4, 1), data( index4,2), data(l index4, 3), 'linestyle', 'none', ‘marker', ' + ', 'color', 'y'); 
$title( 'K 均 值 聚 类 分 类 图 '); 
$% xlabel( ' 第 一 特征 坐标 '); 
yabel( ' 第 二 特征 坐标 '); 
%zlabel( ' 第 三 特征 坐标 '); 
end 
end 
end 
figure 
plot3(result(:,1,1), result(:,2,1), result(:,3,1),'* '); 
hold on; 
plot3(result(:,1,2), result(:,2,2),result(:,3,2),' x* '); 
plot3(result(:,1,3), result(:,2,3),result(:,3,3),' x '); 
plot3(result(:,1,4), result(:,2,4),result(:,3,4),'* "'); 
grid on; 
line(result(:,1,1),result(:,2,1),result(:,3,1), 'linestyle', 'none', 'marker', 'x* ', 'color' 


ere 


line(result(:,1,2),result(:,2,2),result(:,3,2), 'linestyle', 'none' 'marker', '* ', 'color', 'b'); 
line(result(:,1,3),result(:,2,3),result(:,3,3), 'linestyle', 'none' 'marker', '* ', 'color', 'g'); 


line(result(:,1,4),result(:,2,4),result(:,3,4), 'linestyle', 'none', 'marker', '* ', 'color', 'r'); 


PAM 算法 是 通过 不 断 计 算 中 心 点 及 其 他 点 距离 中 心 点 的 距离 来 优化 分 类 的 ,所 以 
需要 多 次 运行 程序 ,找到 最 优 分 类 。 第 一 次 运行 程序 ,将 出 现 如 图 4-13 所 示 的 分 类 结 
果 界 面 。 


图 4-13 首次 运行 分 类 结果 界面 
MATLAB 程序 代码 运行 结果 如 下 : 


Oo oo 
- 
ooo oo os 


多 次 运行 之 后 将 出 现 如 图 4-14 所 示 的 分 类 结果 界面 。 


图 4-14 多 次 运行 后 的 分 类 结果 界面 
MATLAB 程序 运行 完 之 后 出 现 如 下 结果 : 


result(:,:,4) = 
1.0e+03 * 

0 0 0 

0 0 0 

0 0 0 

0 0 0 

0.4607 3.2748 2.1730 

0 0 0 

0 0 0 


0 0 0 


相关 参数 的 仿真 结果 会 显示 在 MATLAB 的 工作 区 中 ,如 图 4-15 所 示 。 


4-15 MATLAB 程序 运行 后 的 工作 区 


其 中 label 项 给 出 了 数据 的 类 别 号 ,具体 结果 如 下 : 


模式 识别 与 人 工 智 能 (基于 MATLAB) 

通过 与 标准 数据 对 比 ,发 现 2144. 47,2501. 62.591. 51; 2201. 94, 3196. 22,935. 53; 
2232. 43,3077. 87,1298. 87; 1962.4,1957. 44,3498. 02 这 4 组 数据 的 分 类 不 正确 ,正确 率 为 
87%。 这 可 能 是 仿真 次 数 不 够 造成 的 。 


4.5.4 ”PAM 算法 的 特点 


PAM 算法 的 一 些 特 定 特点 ,可 以 帮助 用 户 很 好 地 处 理 数据 问题 ,但 也 存在 一 些 不 足 ， 

(1) 消除 了 K 均值 算法 对 于 孤立 点 的 敏感 性 。 

(2) K 中 心 点 方法 比 K 均值 算法 的 运算 过 程 复杂 , 耗 时 长 。 

(3) 必须 指定 的 值 。 

(4) PAM 算法 对 小 的 数据 集 非常 有 效 ,对 大 数据 集 效率 不 高 。 特 别 是 n 和 k 值 都 很 大 
的 时 候 。 


4.5.5 kK 均值 算法 和 PAM 算法 分 析 比 较 


KK 均值 算法 是 先 任意 选取 中 心 点 ,通过 k 值 将 数据 分 为 几 类 ,然后 在 簇 中 通过 求 取 平 
均值 的 方法 重新 确定 中 心 点 ,重新 赋值 ,再 重新 求 取 平均 值 , 重 复 此 工作 ,直至 准则 J x 最 小 
化 。 而 PAM 算法 则 是 通过 对 除 聚 类 中 心 以 外 的 样本 点 计算 到 每 个 聚 类 中 心 的 距离 ,再 对 
每 个 类 中 除 类 中 心 的 点 外 的 其 他 样本 点 计算 到 其 他 所 有 点 的 距离 和 的 最 小 值 , 将 该 最 小 值 
点 作为 新 的 聚 类 中 心 便 实 现 了 一 次 聚 类 优化 ,也 就 是 样本 归 类 到 距离 样本 中 心 最 近 的 样本 
点 。 这 便 实 现 了 最 初 的 聚 类 选取 数据 中 的 点 作为 中 心 点 。 检 测 非 中 心 点 O; 到 中 心 点 的 距 
离 与 男 一 个 非 中 心 点 0; 的 距离 的 差 是 正 是 负 , 若 为 正 , 则 将 O 的 中 心 点 换 为 0;, 依 此 类 
推 ,遍历 所 有 的 数据 ,直至 所 有 非 中心 点 被 选择 过 ,所 有 的 中 心 点 被 选择 过 ,从 而 更 好 地 消除 
孤立 点 。 通 过 前 面 的 仿真 可 以 知道 ,PAM 对 数据 的 分 类 可 以 减低 孤立 点 的 影响 (参见 图 4-16、 
图 4-17) 。 

K 均值 算法 对 孤立 点 敏感 ,即使 对 一 个 远离 聚 类 中 心 的 目标 ,算法 也 强行 将 其 划分 一 个 类 
中 ,从 而 扭曲 了 聚 类 的 形状 。 而 PAM 算法 以 真实 数据 点 为 聚 类 原型 ,消除 了 孤立 点 的 影响 。 


4.5.6 结论 


由 于 现在 科学 技术 的 发 展 ,大 量 的 不 同 数据 出 现在 各 行 各 业 , 从 而 使 人 们 处 理 这 些 复杂 
的 数据 出 现 困 难 ; 但 由 于 计算 机 技术 的 迅猛 发 展 , 人 们 生产 、 搜 集 、 处 理 数据 的 能 力 不 断 提 
高 。 通 过 使 用 聚 类 算法 ,可 将 特性 相似 的 数据 分 为 一 类 ,不 同 特性 的 数据 之 间 差 距 很 大 ,为 
各 行 各 业 提 供 所 需要 的 有 用 数据 ,并 进行 分 析 。 

本 节 主 要 介绍 了 PAM 算法 并 将 其 与 K 均值 算法 做 了 比较 。K 均值 聚 类 算法 是 最 为 
经 典 的 ,同时 也 是 使 用 最 为 广泛 的 一 种 基于 划分 的 聚 类 算法 , 它 属于 基于 距离 的 聚 类 算法 。 
但 由 于 K 均值 算法 对 孤立 点 敏感 ,很 可 能 将 孤立 点 划分 到 一 个 类 中 ,使 分 类 的 聚 类 形状 捏 
曲 。 而 PAM 算法 则 对 孤立 点 不 敏感 ,因为 PAM 算法 会 将 所 有 数据 进行 遍历 ,以 真实 的 数 
据 作 为 聚 类 原型 ,从 而 消除 了 孤立 点 的 影响 。 
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4-17 PAM 聚 类 结果 图 界面 


A 


模式 识别 与 人 工 智能 (基于 MATLAB) 


人 村 数据 聚 类 一 一 层次 聚 类 


4.6.1 层次 聚 类 方法 简介 


层次 聚 类 就 是 将 数据 集 按照 某 种 方法 进行 层次 分 解 ,直到 满足 某 种 条 件 为 止 。 按 照 分 
类 原理 的 不 同 , 可 以 分 为 凝聚 和 分 裂 两 种 方法 。 层 次 凝聚 的 代表 是 AGNES 算法 ,层次 分 裂 
的 代表 是 DIANA 算法 。 一 个 完全 层次 聚 类 的 质量 由 于 无 法 对 已 经 做 的 合并 或 分 解 进行 调 
整 而 受到 影响 。 但 是 层次 聚 类 算法 没有 使 用 准则 函数 , 它 所 含 的 对 数据 结构 的 假设 更 少 ,所 
以 它 的 通用 性 更 强 。 


4.6.2 ”凝聚 的 和 分 裂 的 层次 聚 类 


1. 凝聚 的 层次 聚 类 


凝聚 的 层次 聚 类 是 一 种 自 底 向 上 的 策略 。 典 型 的 方式 是 , 它 从 每 个 对 象形 成 自己 的 簇 
开始 ,并 且 和 迭代 地 把 复合 并 成 越 来 越 大 的 簇 ,直到 所 有 的 对 象 都 在 一 个 簇 中 ,或 者 满足 某 个 
终止 条 件 。 该 单个 簇 成 为 层次 结构 的 根 。 在 合并 步骤 , 它 找 出 两 个 最 接近 的 徐 , 并 且 合 并 它 
们 ,形成 一 个 簇 。 因 为 每 次 迭代 合并 两 个 簇 , 其 中 每 个 簇 至 少 包含 一 个 对 象 ,因此 凝聚 方法 
最 多 需要 n 次 迭代 。 

绝 大 多 数 层次 聚 类 方法 属于 这 一 类 ,它们 只 是 在 徐 间 相似 度 的 定义 上 有 所 不 同 。 凝 聚 
的 层次 聚 类 算法 过 程 如 图 4-18 所 示 。 


图 4-18 凝聚 的 层次 聚 类 算法 


凝聚 方法 令 每 个 对 象 自 成 一 艇 ,然后 这 些 簇 根据 某 种 准则 逐步 合并 。 簇 合并 过 程 反 复 
进行 ,直到 所 有 的 对 象 最 终 合并 成 一 个 艇 。 


2. 分 裂 的 层次 聚 类 


分 裂 的 层次 聚 类 与 凝聚 的 层次 聚 类 相反 :采用 自 项 向 下 的 策略 。 它 从 把 所 有 对 象 置 于 
一 个 簇 中 开始 ,该 得 是 层次 结构 的 根 。 然 后 , 它 把 根 上 的 簇 划 分 成 多 个 较 小 的 簇 ,并 且 递归 
地 把 这 些 篮 划分 成 更 小 的 复 ,重复 划分 过 程 ,直到 最 底层 的 篮 都 足够 凝聚 或 者 仅 包含 一 个 对 
象 ,或 者 篮 内 的 对 象 都 充分 相似 。 分 裂 的 层次 聚 类 算法 过 程 如 图 4-19 所 示 。 

所 有 的 对 象形 成 一 个 初始 簇 , 根 据 某 种 原则 ,将 簇 分 裂 , 簇 的 分 裂 过 程 反复 进行 ,直到 最 
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图 4-19 分 型 的 层次 聚 类 算法 


终 每 个 新 的 簇 包 含 一 个 对 象 。 


4.6.3” 簇 则 距离 度量 方法 


无 论 使 用 凝聚 方法 还 是 使 用 分 类 方法 ,一 个 核心 问题 是 度量 两 个 簇 之 间 的 距离 ,其 中 每 
个 簇 一 般 是 一 个 对 象 集 。 在 凝聚 和 分 裂 的 层次 聚 类 之 间 , 又 依据 计算 簇 间 的 距离 的 不 同 , 广 
泛 采 用 4 种 簇 间距 离 度量 的 方法 ,其 中 |p 一 p" | 是 两 个 对 象 或 点 p 和 p' 之 间 的 距离 。 
(1) 单 连锁 (single linkage) 又 称 最 近邻 (nearest neighbor) 方 法 , 指 两 个 不 一 样 的 簇 之 
间 任 意 两 点 之 间 的 最 近 距 离 。 这 里 的 距离 是 表示 两 点 之 间 的 相 异 度 , 所 以 距离 越 近 , 两 个 簇 
相似 度 越 大 。 这 种 方法 最 善于 处 理 非 椭 圆 结构 , 却 对 于 噪声 和 孤立 点 特别 的 敏感 。 取 出 距 
离 很 远 的 两 个 类 之 中 出 现 一 个 孤立 点 时 ,这 个 点 就 很 有 可 能 把 两 类 合并 在 一 起 。 该 方法 的 
距离 公式 为 
dai(cisc) = minges wes |p—p’| (4-9) 
(2) 全 连锁 (complete linkage) 又 称 最 远 邻 (furthest neighbor) 方 法 , 指 两 个 不 一 样 的 簇 
中 任意 两 点 之 间 的 最 远 距 离 。 它 对 噪声 和 孤立 点 很 不 敏感 ,趋向 于 寻求 某 些 紧 凑 的 分 类 ,但 
是 ,有 可 能 使 比较 大 的 簇 破裂 。 该 方法 的 距离 公式 为 
drax (Cin0;) 一 maxpeswes |p—p'| (4-10) 
(3) 组 平均 方法 (group average linkage) ,定义 距离 为 数据 两 两 距离 的 平均 值 。 这 种 方 
法 倾向 于 合并 差异 小 的 两 个 类 ,产生 的 聚 类 具有 相对 的 健壮 性 。 该 方法 的 距离 公式 如 式 (4-11) 
所 示 。 


dm(cisc) = >) 2) |p—p’ |/nm (4-11) 


PE P Ec 


(4) 平均 值 方法 (centroid linkage) , 先 计算 各 个 类 的 平均 值 .然后 定义 平均 值 之 差 为 两 

类 的 距离 。 该 方法 的 距离 公式 为 
daan(ci9c;) = |mi—m; | (4-12) 

其 中 CinCj 是 两 个 类 ; Mi Nj 分 别 为 类 CinCj 的 平均 值 。 

当 算 法 使 用 最 小 距离 来 衡量 簇 间距 离 时 ,有 时 称 它 为 最 近邻 聚 类 算法 。 此 外 ,如 果 当 最 
近 的 两 个 篮 之 间 的 距离 超过 用 户 给 定 的 阔 值 时 聚 类 过 程 就 会 终止 , 则 称 其 为 单 连锁 算法 。 

当 一 个 算法 使 用 最 大 距离 来 度量 簇 间距 离 时 .有 时 称 为 最 远 邻 聚 类 算法 。 如 果 当 最 近 
两 个 簇 之 间 的 最 大 距离 超过 用 户 给 定 的 阔 值 时 聚 类 过 程 便 终止 , 则 称 其 为 全 连锁 算法 。 

以 上 最 小 和 最 大 距离 代表 了 得 间距 离 度量 的 两 个 极端 。 它 们 趋向 离 群 点 或 噪声 数据 过 


分 敏感 。 使 用 均值 距离 或 平均 距离 是 对 最 小 和 最 大 距离 的 一 种 折 中 方法 ,并 且 可 以 克服 离 
群 点 敏感 性 问题 。 


4.6.4 层次 聚 类 方法 存在 的 不 足 


在 凝聚 的 层次 聚 类 方法 和 分 裂 的 层次 聚 类 的 所 有 方法 中 ,都 需要 用 户 提 供 希 望 得 到 的 
聚 类 的 单个 数量 和 浆 值 作为 聚 类 分 析 的 终止 条 件 , 但 是 对 于 复杂 的 数据 来 说 这 是 很 难事 先 
判定 的 。 尽 管 层次 聚 类 的 方法 实现 起 来 很 简单 ,但 是 偶尔 也 会 遇 到 合并 或 分 裂 点 抉择 困难 
的 情况 。 这 样 的 抉择 是 特别 关键 的 ,因为 只 要 其 中 的 两 个 对 象 被 合并 或 者 分 裂 , 接 下 来 的 处 
理 将 只 能 在 新 生成 的 簇 中 完成 ,已 形成 的 处 理 不 能 被 撤销 ,两 个 聚 类 之 间 也 不 能 交换 对 象 。 
如 果 在 某 个 阶段 没有 选择 合并 或 分 裂 的 决策 ,就 很 可 能 会 导致 低 质量 的 聚 类 结果 。 此 处 ,这 
种 聚 类 方法 不 具备 较 好 的 可 伸缩 性 ,因为 它们 合并 或 分 裂 的 决策 需要 经 过 检测 和 估算 大 量 
的 对 象 或 簇 。 

层次 聚 类 算法 由 于 要 使 用 距离 矩阵 ,所 以 它 的 时 间 和 空间 复杂 度 都 很 高 OC(w*) ,几乎 不 
能 在 大 数据 集 上 使 用 。 层 次 聚 类 算法 只 处 理 符合 某 静态 模型 的 艇 而 忽略 了 不 同 簇 间 的 信 
息 , 并 且 忽 咯 了 簇 间 的 互 连 性 ( 指 徐 间 距离 较 近 数据 对 的 多 少 ) 和 近似 度 ( 指 徐闻 数据 对 的 相 
似 度 ) 。 


4.6.5 层次 聚 类 的 MATLAB 实现 


这 里 使 用 平均 值 方法 (centroid linkage) 来 实现 酒 瓶 颜色 的 聚 类 ,数据 采用 表 1-2。 下 面 
具体 介绍 程序 算法 。 


1. 重要 代码 介绍 
(1) 数据 标准 化 处 理 ,程序 代码 如 下 : 


将 数据 进行 标准 化 变换 
Q1 = zscore(X1); 


(2) 利用 欧 拉 距离 函数 计算 样本 间距 离 ,程序 代码 如 下 : 


% 计 算 样本 间 的 距离 
Y1= pdist(Q1, 'euclid') % 欧 拉 距 离 


(3) 用 两 类 间距 离 定义 为 类 重心 间 的 距离 ,程序 代码 如 下 : 


2Z1 = linkage(Yl, 'centroid') 


2. MATLAB 完整 程序 
层次 聚 类 的 MATLAB 完整 程序 代码 如 下 : 


s# 层 次 聚 类 

clear 

X1 = [1739.94 1675.15 
373.3 3087.05 
了 756277 1652 
864.45 1647.31 
222.85 3059.54 
877.88 2031.66 
1803.58 1583.12 
2352.12 2557.04 
401.3 3259.94 
363.34 3477.95 
Ey 1731.04 
104.8 3389.83 
499.85 232305735 
2297.28 3340.14 
2092.62 33177521 
1418.79 1775. 89 
1845.59 1918. 81 
2205.36 3243.74 
2949.16 3244.44 
1692.62 1867.5 
1680.67 1575.78 
2802.88 0027141 
172.78 3084.49 
2063.54 3199.76 
1449.58 1641.58 
1651.52 1713.28 
341.59 3076.62 
291.02 3095.68 
237.63 3077.78 

数据 转化 

% 将 数据 进行 标准 化 变换 

Q1 = zscore(X1); 

% 计 算 样本 间 的 距离 


2395. 
2429. 
1514. 
2665. 
2002. 
3071. 
2163. 
1411. 
2150. 
2462. 
1735. 
2421. 
2196. 


96 
47 
98 
9 

| 
18 
05 
53 
98 
86 
33 
83 
22 


535.62 
584.32 


V3 
2226. 
1202. 


9 
49 
69 


662.42 


2108. 
1725. 
1984. 
2328. 
1257. 
3405. 
1570. 
2438. 
2088. 
2251. 


Y1=pdist(Q1, 'euclid')% 欧 拉 距 离 
D= squareform(Y1) 
21 = linkage(Y1, 'centroid'); % 用 两 类 间距 离 定 义 为 类 重心 间 的 距离 
T1 = cluster(2Z1,4) 


# 形 成 聚 类 


97 


96]; 


plot3(X1(:,1),X1(:,2),X1(:,3),'* ', 'MarkerSize', 8); 


grid; 
变 颜色 
hold on; 


for t=1:length(T1) 


if(T1(t) == 


1) 


plot3(X1(t,1),X1(t,2),X1(t, 3), Marker', ' * ', 'Color', 'r'); 


elseif(T1(t) == 2) 


plot3(X1(t,1),X1(t,2),X1(t,3), Marker', ' * ', 'Color', 'b'); 


elseif(T1(t) == 3) 


plot3(X1(t,1),X1(t,2),X1(t,3), 'Marker',' * ', 'Color', 'g'); 


elseif(T1(t) == 4) 
plot3(X1(t,1), X1(t,2),X1(t,3), 'Marker',' * ', 'Color', 'y'); 

end 

end 

hold on; 

xlabel ('X'); 

Ylabel ('Y'); 

zlabel ('2'); 

title(' 训 练 数据 '); 

xlabel( ' 样 本 '); 

ylabel( ' 类 间距 离 '); 

title(' 训 练 数据 '); 

X2 = [1702.8 1639-79 2068.74 
1877.93 1860.96 1975:2 


867.81 2334.68 2535:1 
1831.49 1 1604.68 
460.69 3274.77 2172.99 


2374.98 3346.98 975:31 
2271.89 3482.97 946.7 
1783.64 2597:99 2261.31 
198.83 3250.45 2445.08 
1494.63 2072.59 2550.51 
1597.03 1921.52 2126.76 
1598.93 1921.08 1623.33 
1243.13 1814.07 3441.07 
2336.31 2640.26 1599.63 


354 3300.12 2373.61 
2144.47 2501.62 591.51 
426.31 3105.29 2057.8 
1507.13 1556.89 1954.51 
343.07 3271.72 2036.94 


2201.94 3196.22 935.53 

2232.43 3077.87 1298.87 
1580.1 1752.07 2463.04 
1962.4 1594.97 1835.95 
1495.18 1957.44 3498.02 
L125.17 1594.39 2937.73 
24.22 3447.31 2145.01 
1269.07 1910.72 2701.97 
1802.07 1725.81 1966.35 


1817.36 1927.4 2328.79 
1860.45 1782.88 1875.13]; 
figure; 
数据 转换 
名 将 数据 进行 标准 化 变换 
Q2 = zscore( X2); 
名 计算 样本 间 的 距离 


Y2 = pdist(Q2, 'euclid')% 欧 拉 距 离 
D1 = squareform(Y2) 
22 = linkage(Y2, 'centroid'); 


T2 = cluster(22,4) 


s# 形 成 聚 类 
plot3(X2(:,1),X2(:,2),X2(:,3),'* ', 'MarkerSize', 8); 
grid; 
# 变 颜色 
hold on; 
for t=1:length(T2) 
if(T2(t) ==1) 


plot3(X2(t,1),X2(t,2),X2(t,3), 'Marker',' * ', 'Color', 'r'); 
elseif(T2(t) == 2) 
plot3(X2(t,1),X2(t,2),X2(t,3), 'Marker',' * ', 'Color', 'b'); 
elseif(T2(t) == 3) 
plot3(X2(t,1),X2(t,2),X2(t,3), 'Marker', ' * ', 'Color', 'g'); 
elseif(T2(t) == 4) 
plot3(X2(t,1),X2(t,2),X2(t,3), 'Marker',' * ', 'Color', 'y'); 
end 
end 
hold on; 
xlabel ('X'); 
ylabel ('Y'); 
zlabel ('2'); 
title(' 测 试 数据 '); 
xlabel( ' 样 本 1'); 
ylabel( ' 类 间距 离 1'); 
title(' 测 试 数据 '); 


box on 


运行 程序 ,出 现 如 图 4-20 和 图 4-21 所 示 的 聚 类 结果 图 界面 。 


文件 (F) 所 加 (日 查看 (V) 插入 W) 工具 (T) 点 面 (D) 窗口 (W) 玫 助 (H) 
DI NS TTRR 0 ego 
| 训练 数据 


图 4-20 训练 数据 聚 类 图 界面 


4-21 测试 数据 聚 类 图 界面 
程序 运行 完 之 后 ,在 命令 窗口 出 现 如 下 运行 结果 : 


从 结果 中 可 以 看 出 聚 类 结果 完全 正确 。 


4.6.6 结论 


层次 聚 类 方法 是 聚 类 分 析 中 应 用 很 广泛 的 一 种 方法 。 它 是 根据 给 定 的 秘 间 距离 度量 为 
准则 ,构造 和 维护 一 棵 由 簇 和 子 簇 形成 的 聚 类 树 ,直至 满足 某 个 终结 条 件 为 止 。 其 中 艇 间距 
离 度量 方法 有 最 小 距离 .最 大 距离 .平均 值 距离 和 平均 距离 四 种 。 层 次 聚 类 算法 简单 ,而且 
能 够 有 效 处 理 大 数据 集 ,但 是 它 一 旦 把 一 组 对 象 合并 或 者 分 裂 , 则 已 做 的 处 理 便 不 能 撤销 和 


模式 识别 与 人 工 智能 (基于 MATLAB) 
更 改 。 如 果菜 一 步 没有 很 好 地 做 好 合并 或 分 橡 抉择 , 则 可 能 会 导致 低 质量 的 聚 类 效果 。 

(1) 最 大 和 最 小 度量 代表 了 簇 间距 度量 的 两 个 极端 。 它 们 趋向 于 对 离 群 点 和 噪声 数据 
过 分 敏感 。 

(2) 使 用 均值 距离 和 平均 距离 是 对 最 大 和 最 小 距离 的 一 种 折 中 方法 ,并 且 可 以 克服 对 
离 群 点 敏感 的 问题 。 

(3) 层次 聚 类 方法 尽管 简单 ,但 经 常会 遇 到 合并 或 分 裂 点 选择 困难 的 问题 。 一 旦 一 组 
对 象 合并 或 分 裂 , 下 一 步 的 处 理 将 对 新 生成 的 簇 进行 。 

(4) 不 具有 很 好 的 可 伸缩 性 ,因为 合并 或 分 裂 的 决定 需要 检查 和 估算 大 量 的 对 象 或 艇 。 

(5) 类 间距 离 的 定义 方法 不 同 , 会 使 分 类 结果 不 太一 致 。 实 际 问题 中 常用 几 种 不 同 的 
方法 进行 计算 ,比较 其 分 类 结果 ,从 中 选择 一 种 比较 切合 实际 的 分 类 方法 。 


数据 聚 类 一 一 ISODATA 算法 概述 


4.7.1 ISODATA 算法 应 用 背景 


ISODATA 算法 是 一 种 聚 类 划分 算法 , 称 为 迭代 自 组 织 数据 分 析 或 动态 聚 类 。 与 传统 
分 类 方法 的 根本 区 别 是 , 它 是 一 种 软 性 分 类 ,而 传统 聚 类 划分 是 硬性 划分 。 在 人 们 不 完全 了 
解 客观 存在 的 根本 属性 的 情况 下 ,如 果 使 用 传统 聚 类 中 的 非 此 即 彼 的 思想 ,最 终 的 结果 是 比 
较 简单 地 将 分 类 对 象 强行 划分 归 类 ,从 而 造成 对 认识 过 程 的 伤害 。 而 软 性 分 类 可 以 认识 到 
大 多 数 分 类 对 象 在 初始 认 知 或 初始 分 类 时 不 太 可 能 显示 的 最 本 质 属 性 ,这 种 模糊 聚 类 的 过 
程 以 一 种 逐步 进化 的 方式 来 逼近 事物 的 本 质 , 可 以 客观 地 反映 人 们 认识 事物 的 过 程 , 是 一 种 
更 科学 的 聚 类 方式 。ISODATA 算法 是 在 没有 先 验 知识 的 情况 下 进行 分 类 的 ,是 一 种 非 监 
督 分 类 的 方法 ,与 K 均值 算法 有 相似 之 处 , 即 聚 类 中 心 通过 对 均值 的 迭代 运算 来 决定 。 但 
ISODATA 算法 能 够 吸取 中 间 结 果 所 得 的 经 验 , 具 有 自 组 织 性 。 它 通过 预先 设 定 的 迭代 参 
数 ,加 入 了 一 些 试探 步骤 ,并 且 可 以 结合 成 为 人 机 交互 的 结构 ,使 其 能 利用 中 间 结 果 所 取得 
的 经 验 更 好 地 进行 分 类 。 

动态 聚 类 的 特点 在 于 聚 类 过 程 通过 不 断 地 迭代 来 完成 , 且 在 迭代 中 通常 允许 样本 从 一 
个 聚合 类 中 转移 到 另 一 个 聚 类 中 。ISODATA 聚 类 法 认为 同类 事物 在 某 种 属性 空间 上 具有 
一 种 密集 型 的 特点 , 它 假定 样本 集中 的 全 体 样 本 分 为 m 类 ,并 选 定 Zk 为 初始 聚 类 中 心 , 然 
后 根据 最 小 距离 原则 将 每 个 样本 分 配 到 某 一 类 中 ; 之 后 不 断 迭 代 ,计算 各 类 的 聚 类 中 心 ,并 
以 新 的 聚 类 中 心 调整 聚 类 情况 ,并 在 迭代 过 程 中 ,根据 聚 类 情况 自动 地 进行 类 的 合并 和 
分 裂 。 

ISODATA 算法 的 特点 如 下 : 

(1) 无 先 验 知识 ,启发 性 推理 。 

(2) 无 监督 分 类 。 

ISODATA 算法 的 基本 思想 是 在 每 轮 迭 代 过 程 中 ,样本 重新 调整 类 别 之 后 计算 类 内 及 
类 间 有 关 参 数 , 并 和 设 定 的 门限 比较 ,确定 是 两 类 合并 为 一 类 还 是 一 类 分 裂 为 两 类 ; 不 断 地 
“ 自 组 织 ”, 以 达到 在 各 参数 满足 设计 要 求 条 件 下 ,使 各 模式 到 其 类 心 的 距离 平方 和 最 小 。 与 


第 4 章 聚 类 分 析 

K 均值 聚 类 算法 相 比较 , 它 在 下 列 几 方面 做 了 改进 : 

(1) 考虑 了 类 别 的 合并 与 分 裂 ,因而 有 了 自我 调整 类 别 数 的 能 力 。 合 并 主要 发 生 在 某 
一 类 内 样本 个 数 太 少 的 情况 ,或 两 类 聚 类 中 心 之 间距 离 太 小 的 情况 。 

为 此 设 有 最 小 类 内 样本 数 限制 ,以 及 类 间 中 心 距 离 参 数 。 若 出 现 两 类 聚 类 中 心 距离 小 
于 的 情况 ,可 考虑 将 此 两 类 合并 。 

分 裂 主要 发 生 在 某 一 类 别 的 某 分 量 出 现 类 内 方差 过 大 的 情况 下 ,因而 宜 分 裂 成 两 个 类 
别 , 以 维持 合理 的 类 内 方差 。 需 要 给 出 一 个 对 类 内 分 量 方差 的 限制 参数 ,用 以 决定 是 否 需 要 
将 某 一 类 分 裂 成 两 类 。 

(2) 由 于 算法 有 自我 调整 的 能 力 ,因而 需要 设置 若干 个 控制 用 参数 ,如 聚 类 数 期 望 值 
开 、 每 次 迭代 允许 合并 的 最 大 聚 类 对 数 工 ,及 允许 迭代 次 数 工 等 。 

下 面 介绍 ISODATA 算法 的 步骤 。 

首先 明确 几 个 参数 ， 

Nce: 预选 聚 类 中 心 个 数 ， 

KK: 希望 的 聚 类 中 心 的 个 数 ; 

ON: 每 个 聚 类 中 心 的 最 少 样本 数 ; 

4 : 一 个 聚 类 域 中 样本 距离 分 布 的 样本 差 ; 

bc: 两 个 聚 类 中 心 之 间 的 最 小 距离 ; 

L: 在 一 次 迭代 中 允许 合并 的 聚 类 中 心 的 最 大 对 数 ; 

T; 允许 迭代 的 次 数 。 

ISODATA 聚 类 法 的 详细 步骤 如 下 : 设 有 N 个 模式 样本 Xi,Xa,…,Xn。 

第 一 步 : 预选 Ne 个 聚 类 中 心 {Z, ,Zs，… ,Zn ) ,Ne 不 要 求 等 于 希望 的 聚 类 数目 。 

第 二 步 : 计算 每 个 样本 与 聚合 中 心 距离 ,把 N 个 样本 按 最 近邻 原则 (最 小 距离 则 ) 分 配 
到 Nec 个 聚 类 中 , 若 ‖X 一 到 | 一 min{ DX 一 Zi 有 ,i==1,2,… ,Ne}, 则 XES;j。 

第 三 步 : 判断 S 中 的 样本 个 数 , 若 Nj; 二 9x, 则 删除 该 类 ,并 且 Ne 减 去 1, 并 转 至 第 


二 步 。 
第 四 步 : 计算 分 类 后 的 参数 ,包括 各 聚 类 样本 中 心 .类 内 平均 距离 及 总 体 平均 距离 。 
各 聚 类 样本 中 心 


坟 = = by 克 (4-13) 
部 名 
类 内 平均 距离 
DD, i 这 一 乞 中 于 二 训 (4-14) 
7JXESi 
总 体 平均 距离 
1 1 Ss 
B= = (4-15) 
j=1lxe€sS Sl 


第 五 步 : 根据 迭代 次 数 和 Nc 的 大 小 判决 算法 是 分 裂 ,合并 还 是 结束 。 
(1) 如 车 迭代 次 数 已 达到 了 次 , 即 最 后 一 次 迭代 , 则 置 9c 二 0, 并 且 跳 到 最 后 一 步 。 


(2) 如 若 Ne< 兮 , 即 聚 类 中 心 数目 不 大 于 希望 数目 的 一 半 , 则 进 和 分裂 步 又。 


(3) 如 若 Nc 三 2K , 即 聚 类 中 心 数目 不 小 于 希望 数目 的 两 倍 ,或 者 迭代 次 数 为 偶数 , 则 
进入 合并 步骤 ,否则 进入 分 裂 步骤 。 
第 六 步 : 分 裂 步骤 如 下 。 
(1) 计算 各 类 类 内 距离 的 标准 差 向 量 
@; = [ooz,…,om] ， 了 一 1,2,…，,Nec (4-16) 
每 一 个 分 量 为 


(4-17) 


式 中 ,i 二 1,2,…,n 是 维 数 ; xi 是 S; 类 的 样本 X 的 第 i 个 分 量 ; zi 是 5S; 类 的 聚 类 中 心 2 
的 第 i 个 分 量 。 

(2) 求 每 个 标准 差 的 最 大 分 量 , 即 为 ons。 

(3) 在 集合 {ojmx) 中 ,车 有 om 过 bs 说 明 Si 类 样本 在 对 应 方向 上 的 标准 差 大 于 允许 
值 , 若 同 时 满足 下 面 两 个 条 件 之 一 : 

@ 万 > 万 和 Ni 之 2(ON 十 1) 


K 
四 Nec< 了 


则 2 分 裂 成 2 六 和 Zi ,Ne 加 1。27 构成 为 : Z; 中 对 应 ojmx 分 量 加 上 kajmx; 2j 构成 为 : 
Zi 中 对 应 cms 分 量 减 去 kojmox ,0 二 k 二 1,k 为 分 裂 系数 。 若 完成 分 型 ,迭代 次 数 加 一 , 转 回 第 
二 步 ,否则 继续 下 一 步 。 

第 七 步 : 合并 步骤 如 下 。 

(1) 计算 所 有 聚 类 中 心 之 间 的 距离 


i= 1,2, ,Ne—1; 
D; = |2:—2;|, (4-18) 
了 一 i 十 1 十 2,…,Nec 


(2) 比较 所 有 的 Di 与 0c 的 值 ,将 小 于 tc 的 DD; 按 升序 排列 ,形成 集合 {Di nm :Das MP 
ee 

(3) 将 集合 (Dj, Di, ，…, Di, ) 中 每 个 元 素 对 应 的 两 类 合并 ,得 到 新 的 聚 类 ,其 中 
心 为 


D. 


Zi = NZ + NZ), 1=1,2,0,L (4-19) 


了 十 了 
每 合并 一 对 ,Nc 减 1。 
第 八 步 : 如 若是 最 后 一 次 迭代 运算 , 则 算法 结束 ; 否则 有 两 种 情况 ,需要 操作 者 修改 参 
数 时 , 跳 到 第 一 步 , 输 入 参数 不 需要 改变 时 , 跳 到 第 二 步 , 选 择 两 者 之 一 ,迭代 次 数 加 1, 然 后 
继续 进行 运算 。 


4.7.2 ISODATA 算法 的 MATLAB 实现 


这 里 还 采用 表 1-2 所 示 数 据 。 
运用 MATLAB 语言 来 实现 ISODATA 算法 的 主要 思想 是 ,把 类 的 分 裂 、 合 并 操作 看 成 
是 一 种 三 维 数组 中 行 向 量 位 置 移动 的 过 程 ,每 一 个 样本 作为 数组 中 的 一 个 行 向 量 ,而 每 一 行 
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的 每 一 列 都 是 样本 的 属性 值 ; 使 用 MATLAB 的 矩阵 运算 就 可 以 完成 对 样本 位 置 的 调整 ， 
从 而 模拟 对 类 的 调整 ,最 终 达 到 聚 类 分 析 的 结果 。 程 序 实现 流程 : 将 输入 样本 初始 化 分 类 
之 后 ,对 分 类 进行 判断 ,是 分 裂 、 合 并 还 是 终止 ,然后 再 根据 判断 结果 进行 分 类 ,如 此 周 而 
复 始 。 

1. ISODATA 算法 的 重要 源 代码 

(1) 初始 化 程序 代码 如 下 : 


% stepl :初始 化 

了 = input(' 是 否 要 设置 输入 参数 ?是 请 输入 "1", 否 请 输入 "0": T='); 

if(T==1) 

K = input( "请 输入 预期 聚 类 中 心 数目 : K= '); # 预期 的 聚 类 中 心 个 数 

Qn = input( "请 输入 每 一 聚 类 中 最 少 样本 数 : Qn = '); 外 每 一 类 中 最 少 的 样本 数目 


Qs = input(' 请 输入 一 个 聚 类 中 样本 距离 分 布 的 标准 差 : 0s = ');% 一 个 聚 类 中 样本 距离 分 布 的 标准 差 
Qc = jput( "请 输入 两 类 聚 类 中 心间 的 最 小 距离 : Qc = '); 两 类 聚 类 中 心间 的 最 小 距离 
#%LT = input(' 请 输入 一 次 迭代 中 可 以 合并 聚 类 中 心 的 最 多 个 数 : L= '); $ 一 次 迭代 中 可 以 合并 聚 类 


当中 心 的 最 多 个 数 
end 
5$K=3; g% 预期 的 聚 类 中 心 个 数 
% on = 5; 每 一 类 中 最 少 的 样本 数目 
% Qs = 1.8; 6 一 个 聚 类 中 样本 距离 分 布 的 标准 差 
% Qc = 1.5; 外 两 类 聚 类 中 间 的 最 小 距离 
seperate = 1; 名 分 裂 标 识 , 为 1 时 可 进入 分 裂 循 环 ,为 0 时 跳出 分 裂 循环 


while( seperate == 1) 
g% disp( ' 正 在 运行 while 循环 '); 


这 里 参数 的 设置 如 下 : 


是 否 要 设置 输入 参数 ?是 请 输入 "1", 否 请 输入 "0": T=1 
请 输入 预期 聚 类 中 心 数目 : K= 4 

请 输入 每 一 聚 类 中 最 少 样本 数 : Qn= 2 

请 输入 一 个 聚 类 中 样本 距离 分 布 的 标准 差 : 0s= 1 

请 输入 两 类 聚 类 中 心间 的 最 小 距离 : 0c = 4 


(2) 将 待 分 类 数据 分 别 分 配给 距离 最 近 的 聚 类 中 心 程序 ,代码 如 下 : 


#% step2: 将 待 分 类 数据 分 别 分 配给 距离 最 近 的 聚 类 中 心 
distance = zeros(n,Nc);%n 为 x 的 行 数 ,NC 为 初始 聚 类 中 心 个 数 


for i=1:n 


forj=1:Ne 

distance(i,j) = norm(x(i,:)— center(j,:)); 遍历 到 聚 类 中 心 的 欧 氏 距离 
end 

end 

[m, index] = min(distance,[],2); % 修 辑 索 引 index 为 1 或 0; 


class = index; 
clear m; 
clear index; 


clear distance; 名 删除 m index, distance; 
名 统计 各 子 集 的 样本 数目 

num = zeros(1, Nc); 

for i=1:e 

index = find(class == i); 找到 第 i 行 的 索引 和 值 ; 
num(i) = length( index); 名 子 集 i 的 样本 数目 

end 

clear i; 


clear index; 


(3) 取消 样本 数目 小 于 Qn 的 子 集 程序 ,代码 如 下 : 


% step3: 取 消 样本 数目 小 于 on 的 子 集 
index = find(num>= on); # Qn 为 每 一 类 中 最 少 样本 数目 ; 
Nc = length(index); 

center hat = zeros(Nc, d); 

for i=1:Nc 

center hat(i,:) = center(index(i), :); 

end 

center = center hat; 

clear center hat; 

clear index; 

名 重新 将 待 分 类 数据 分 别 分 配给 距离 最 近 的 聚 类 中 心 
distance = zeros(n, Nc); 

for i=1:n 

for j=1:Nc 

distance(i,j) = norm(x(i,:)— center(j,:)); 

end 

end 

[m, index] = min(distance,[],2); 

class = index; 

clear m; 

clear index; 

clear distance; 


(4) 计算 分 类 后 的 参数 的 程序 , 即 各 聚 类 样本 中 心 、 类 内 平均 距离 及 总 体 平均 距离 , 代 
码 如 下 : 


step4: 修 正 聚 类 中 心 
new_center = zeros(Nc, d); 
num = zeros(1, Nc); 


or T= :We 

index = find(class == i); 

num(i) = length(index); 名 子 集 i 的 样本 数目 
new center(i,:) = mean(x(index, :)); 名 子 集 主 的 聚 类 中 心 
end 


center = new center; 
clear new_ center; 
Clear index; 


sstep5: 计 算 各 子 集中 的 样本 到 中 心 的 平均 距离 dis 

各 step6: 计 算 全 部 模式 样本 与 其 对 应 聚 类 中 心 总 平均 距离 ddis 
dis = zeros(1, Nc); 

ddis = 0; 

for i=1:K 

index = find(class == i); 

for j=1:num(i) 

dis(i) = dis(i) +norm(x(index(j),:) - center(i, :)); 
end 

ddis = ddis+dis(i); 

dis(i) = dis(i)/num(i); 

end 

ddis = ddis/n; 

clear index; 


(5) 判断 分 裂 、 合 并 及 迭代 的 程序 ,代码 如 下 : 


s% step7: 判 断 分 裂 、 合 并 及 和 迭代 

如果 迭代 次 数 达 到 Imax 次 , 置 Qc = 0, 跳 出 循环 至 step14 
if I== Imax % (1) 

Qc = 0; 

break; 

end 

if (Ne<=K/2) % (2) 如 果 不 进入 分 裂 则 跳 到 stepll, 合 
seperate = 1; 

end 

if(mod(I,2) ==0|Nc >=2xK) %(3) 

break; 

else 


seperate = 1; 
end 


(6) 分 裂 的 相关 程序 代码 如 下 : 


step8: 分 裂 

% 计 算 每 个 聚 类 中 ,各 样本 到 中 心 的 标准 差 向 量 

sigma = zeros(Nc,d); % sigma(i) 代 表 第 i 个 聚 类 的 标准 差 向 量 
for i=1:Nc 

index = find(class == i); 

for j=1:num(i) 

Sigma(i,:) = sigma(i,:)+ (x(index(j),:)— center(i,:)).*2; 
end 

sigma(i,:) = sqrt(sigma(i,:)/num(i)); 

end 

clear index; 

名 step9: 求 各 个 标准 差 {sigma_j} 的 最 大 分 量 
[sigma max, max index] = max(sigma,[],2); 

%% step10: 分 裂 

k=0.5; 名 分 裂 聚 类 中 心 时 使 用 的 系数 


temp Nc = Nc; 

for i=1:temp Nc 

if sigma max(i)> Qs&( (dis(i)> ddisgnum(i)>2*x (On+1))|Nc<=K/2) 

Ne = K+1; 

名 将 z(i) 分 裂 为 两 个 新 的 聚 类 中 心 

center(Nc,:) = center(i,:); 

center(i,max index(i)) = center(i,max index(i)) +k* sigma max(i); 
center(Nc,max index(i)) = center(Nc,max index(i)) +kx sigma max(i); 
end 

end 

record(I) = Nc; 


(7) 合并 的 相关 程序 ,代码 如 下 : 


凶 委 stepll :合并 


计算 全 部 聚 类 中 心间 的 距离 
center Dis = zeros(Nc—1,Nc); 
for i=1:Nc 


for j=i+1:Nc 

center Dis(i,j) = norm(center(i, :) - center(j, :)); 

end 

end 

%s% step12, 13: 如 果 距 离 最 小 的 两 个 中 心 之 间距 离 小 于 Qc, 将 其 合并 
多 找 出 距离 最 近 的 两 个 中 心 


min Dis = center Dis(1,3); 名 最 小 距离 
min index = [1,3]; 名 距离 最 近 的 两 个 中 心 的 标号 
for i=1:Nc 


for j=i+1l1:Nc 

if center Dis(i,j)<min Dis 

min Dis = center Dis(i,j); 

min index = [i,j]; 

end 

end 

end 

if min Dis<Qc 

合并 距离 最 近 的 两 个 中 心 

包 合 并 产生 的 新 中 心 为 

new center = (center(min index(1),:) * num(min index(1)) + center(min index(2), 
index(2)))/(num(min index(1)) + num(min index(2))); 
temp_center = zeros(1,Nc); 

temp_center = center; 

temp_center(min index(1),:) = new center; 
temp_center(min index(2),:) center(Nc, :); 
Nc = Nc 一 1; 名 聚 类 数目 减 1 

center = temp center(1:Nc, :); 

clear temp_ center 

end 

end 


:) x num(min 


Tecord(I) = Nc; 
下 


名 x 为 聚 类 中 元 素 矩 阵 ,z 为 聚 类 中 心 ,k 为 聚 类 元 素 维 数 ,n 为 x 中 元 素 个 数 


function [delta] = clusterStd(x,z,n,k) 
d = zeros(1,k); 
fori= 1:n 
or sm sk 
d(j) = d(j) + (x(i,j)-z(i))"2; 
end 
end 
delta = sqrt(d./n); 


2. ISODATA 的 MATLAB 完整 程序 
完整 MATLAB 程序 代码 如 下 : 


close all; 

clear all; 

eles 

数据 导入 

in data = load('SelfOrganizationSimulation. dat'); 
x = in data; 

多 给 数据 添加 类 别 标签 

label = [ones(10,1);ones(10,1) *2;ones(10,1) * 3]; 
in data = [in data, label]; 

$ 一 一 一 一 一 一 一 一 一 一 一 一 ISODATA -一 -一 -一 一 一- 多 


Nc =5; 

% 和 记录 聚 类 数目 

record = zeros(1, Imax); 
随机 选取 Nc 个 初始 聚 类 中 心 
r = randperm(30); 

for i=1:Nc 

center(i,:) = x(r(i),:); 
end 

clear i; 

clear r; 

[n,d] = size(x); 

I=1; 

while I < Imax 

多 stepl: 初 始 化 


名 导入 数据 
多 待 分 类 样本 


名 迭代 次 数 
名 预选 初始 聚 类 中 心 个 数 


nn 为 数据 行 数 ,d 为 数据 列 数 


了 = input(' 是 否 要 设置 输入 参数 ?是 请 输入 "1", 否 请 输入 "0": T='); 


(T=) 
K = input( ' 请 输入 预期 聚 类 中 心 数目 : K= '); 
Qn = input(' 请 输入 每 一 聚 类 中 最 少 样本 数 : Qn = '); 


s% 预期 的 聚 类 中 心 个 数 
s 每 一 类 中 最 少 的 样本 数目 


Qs = input(' 请 输入 一 个 聚 类 中 样本 距离 分 布 的 标准 差 : Qs = '); $ 一 个 聚 类 中 样本 距离 分 布 的 标准 差 


Qc = input( "请 输入 两 类 聚 类 中 心间 的 最 小 距离 : Qc = '); 


两 类 聚 类 中 心间 的 最 小 距离 


%L = input( "请 输入 一 次 迭代 中 可 以 合并 聚 类 中 心 的 最 多 个 数 : 工 = '); $ 一 次 迭代 中 可 以 合并 聚 类 


当中 心 的 最 多 个 数 


end 

SK= 3; s# 预期 的 聚 类 中 心 个 数 

% On = 5; 每 一 类 中 最 少 的 样本 数目 

% Qs = 1.8; 一 个 聚 类 中 样本 距离 分 布 的 标准 差 

Qc = 1.5; 两 类 聚 类 中 间 的 最 小 距离 

seperate = 1; 名 分 裂 标 识 ,为 1 时 可 进入 分 裂 循环 ,为 0 时 跳出 分 型 循环 


while(seperate==1) 

多 disp( ' 正 在 运行 while 循环 '); 

和 step2: 将 待 分 类 数据 分 别 分 配给 距离 最 近 的 聚 类 中 心 

distance = zeros(n, Nc); 多 n 为 x 的 行 数 ,Nc 为 初始 聚 类 中 心 个 数 

for i=1:n 

for j=1:Nc 

distance(i,j) = norm(x(i,:) - center(j,:)); 名 遍历 到 聚 类 中 心 的 欧 氏 距离 
end 

end 

[m, index] = min(distance,[],2); 外 逻辑 索引 index 为 1 或 0; 
class = index; 

Clear m; 

Clear index; 

clear distance; 名 删除 m, index, distance; 
名 统计 各 子 集 的 样本 数目 

num = zeros(1, Nc); 

Eee 

index = find(class == i); 名 找到 第 i 行 的 索引 和 值 ; 
num(i) = length( index); 久子 集 i 的 样本 数目 

end 

Clear i; 

Clear index; 

s% step3: 取 消 样本 数目 小 于 Qn 的 子 集 

index = find(num>= Qn); 名 Qn 为 每 一 类 中 最 少 样本 数目 ; 
Nc = length(index); 

center hat = zeros(Nc,d); 

for i=1:Nc 

center hat(i,:) = center(index(i), :); 

end 

center = center hat; 

clear center _hat; 

clear index; 

和 重新 将 待 分 类 数据 分 别 分 配给 距离 最 近 的 聚 类 中 心 

distance = zeros(n, Nc); 

for i=1:n 

for j=1:Nc 

distance(i,j) = norm(x(i,:)— center(j,:)); 

end 

end 

[m, index] = min(distance,[],2); 

class = index; 

clear m; 

clear index; 

clear distance; 
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名 step4: 修 正 聚 类 中 心 
new center = zeros(Nc, d); 
num = zeros(1, Nc); 
for i=1:Nc 
index = find(class == i); 
num(i) = length( index); 名 子 集 i 的 样本 数目 
new center(i,:) = mean(x(index, :)); 多 子 集 二 的 聚 类 中 心 
end 
center = new center; 
clear new center; 
clear index; 
名 step5: 计 算 各 子 集中 的 样本 到 中 心 的 平均 距离 dis 
sstep6: 计 算 全 部 模式 样本 与 其 对 应 聚 类 中 心 总 平均 距离 ddis 
dis = zeros(1, Nc); 
ddis = 0; 
for i=1:Nc 
index = find(class == i); 
for j=1:num(i) 
dis(i) = dis(i) + norm(x(index(j),:)— center(i,:)); 
end 
ddis = ddis+dis(i); 
dis(i) = dis(i)/num(i); 
end 
ddis = ddis/n; 
clear index; 
% step7 :判断 分 裂 ,合并 及 迭代 
% 如 果 适 代 次 数 达 到 Imax 次 , 置 0c = 0, 跳 出 循环 至 step14 
if I== Imax % (1) 
de 95 
break; 
end 
if (Nc<=K/2) % (2) 如 果 不 进入 分 裂 则 跳 到 step11, 合并 
seperate = 1; 
end 
if(mod(I,2) == 0|Nc>=2xK) %(3) 
break; 
else 
seperate = 1; 
end 
多 step8: 分 裂 
和 计算 每 个 聚 类 中 ,各 样本 到 中 心 的 标准 差 向 量 
sigma = zeros(Nc,d); % sigma(i) 代 表 第 i 个 聚 类 的 标准 差 向 量 


for i=1:Nc 

index = find(class == i); 

for j=1:num(i) 

sigma(i,:) = sigma(i, :) + (x(index(j),:)— center(i,:))."2; 
end 

sigma(i,:) = sqrt(sigma(i,:)/num(i)); 

end 

clear index; 


模式 识别 与 人 工 智能 (基于 MATLAB) 


各 step9: 求 各 个 标准 差 {sigma_j} 的 最 大 分 量 
[sigma max,max index] = max(sigma,[],2); 
名 step10: 分 裂 
k= 0.5; 分 裂 聚 类 中 心 时 使 用 的 系数 
temp Nc = Nc; 
for i=1:temp Nc 
if sigma max(i)> Qs&((dis(i)> ddisgnum(i)>2* (Qn+1))|Nc<= K/2) 
Ne = 二 1; 
将 z( 了 分裂 为 两 个 新 的 聚 类 中 心 
center(Nc,:) = center(i,:); 
center(i,max index(i)) = center(i,max index(i)) +k* sigma max(i); 
center(Nc,max index(i)) = center(Nc,max index(i)) +kx* sigma max(i); 
end 
end 
record(I) = Nc; 
和 绘制 聚 类 效果 图 
figure; 
for i=1:30 
if class(i)==1 
plot3(x(i,1),x(i,2), x(i,3), 'r* '); 红色 * 表示 第 1 簇 
hold on; 
end 
if class(i) ==2 
plot3(x(i 1) a(i2), x(2.3), b+ "); 蓝 色 + 表示 第 2 簇 
hold on; 
end 
if class(i) == 
plot3(x(i,1), x(i,2), x(i,3), 'go'); s# 绿 色 o 表 示 第 3 亿 
hold on; 
end 
if class(i)==4 
plot3(x(11),x(1,2), x(1,3), kx'); 黑色 x 表示 第 4 入 
hold on; 
end 
if class(i)==5 
plot3(x(i,1), x(1,2), x(1,3), 'md'); 品 红色 菱形 表示 第 5 拷 
hold on; 
end 
end 
title( " 聚 类 效果 图 ') 
汪汪 
end 
s$ disp( ' 正 在 运行 合并 '); 
if(I < Imax); 
名 多 stepll :合并 
名 计算 全 部 聚 类 中 心间 的 距离 
center Dis = zeros(Nc—1,Nc); 
for i=1:Nc 
Sor T= i Le 


center Dis(i,j) = norm(center(i,:)— center(j, :)); 


end 

end 

名 各 step12, 13: 如 果 距 离 最 小 的 两 个 中 心 之 间距 离 小 于 Qc, 将 其 合并 
名 找 出 距离 最 近 的 两 个 中 心 


min Dis = center Dis(1,3); 多 最 小 距离 
min index = [1,3]; 多 距离 最 近 的 两 个 中 心 的 标号 
for i=1:Nc 


for j=i+1:Nc 

if center Dis(i,j)<min Dis 

min Dis = center Dis(i,j); 

min index = [i,j]; 

end 

end 

end 

if min Dis<Qc 

s% 合 并 距离 最 近 的 两 个 中 心 

sg 合并 产生 的 新 中 心 为 

new center = (center(min index(1),:) * num(min index(1)) + center(min_ index(2),:) * num(min_ 
index(2)))/(num(min_index(1)) +num(min index(2))); 
temp_center = zeros(1,Nc); 

temp_center = center; 


temp_center(min_ index(1),:) new_center; 


center (Nc, :); 


temp_center(min_index(2),:) 
Nc = Nc-17;s% 聚 类 数目 减 1 
center = temp_center(1:Nc, :); 
clear temp_center 


end 

end 

record(I) = Nc; 

I=I+1 

和 绘制 聚 类 效果 图 

hold off; 

for i=1:30 

if class(i) ==1 

BIOE3 1 2 mld 3 rm 名 红色 * 表示 第 1 簇 
hold on; 

end 

if class(i) ==2 

plot3(x(i1,1), x(i,2), x(i,3), 'b+ '); 名 蓝 色 + 表示 第 2 知 
hold on; 

end 

if class(i) ==3 

plot3(x(i,1), x(i,2), x(i,3), 'go'); 名 绿色 o 表示 第 3 做 
hold on; 

end 

if class(i) ==4 

Plot3(x(i,1), x(i,2), x(i,3), ‘kx'); 黑色 x 表示 第 4 能 
hold on; 


end 


if class(i)==5 

Plot3(x(i,1), x(i,2), x(i,3), md'); 名品 红色 萎 形 表示 第 5 入 
hold on; 

end 

if class(i)==6 

plot3(x(i,1), x(i,2), x(i,3), 'c. '); 和 青色 实心 点 表示 第 6 簇 
hold on; 

end 

if class(i)==7 

plot3(x(i,1), x(i,2), x(i,3), 'yp'); 多 黄色 五 角 星 表示 第 7 簇 
hold on; 

end 

end 

title(' 聚 类 效果 图 '); 

end 

Nc 

center 

class; 

第 第 

% figure(2); 

% plot(record); 

% title( ' 聚 类 数目 变化 曲线 '); 

% 名 统计 聚 类 效果 

% 名 result(i,j) 代 表 第 i 类 数据 被 聚 类 至 第 j 簇 的 数量 
% result = zeros(3,Nc); 

Clear m; 

form=1:3 

for i=(50x (m—1)+1):1:50*m 

for j=1:Nc 

if class(i)==]j 

result(m,j) = result(m,j) +1; 

end 

end 

end 

end 

s#s% 计算 准确 率 、 召 回 率 上 值 

% 名 P(i,j) 代 表 第 i 类 数据 与 第 j 艇 相应 的 准确 率 

% 名 R(i,j) 代 表 第 i 类 数据 与 第 j 艇 相应 的 召回 率 


ww 


$% for i=1:3 

% for j=1:Nc 

多 P(i,j) = result(i,j)/num(j); 

% R(i,j) = result(i,j)/50; 

% F(i,j) = 2x*P(i,j)*R(i,j)/(P(i,j) +R(i,j)); 

% 

s%s# disp( 'F(i,j) 代 表 第 i 类 数据 与 第 j 簇 相应 的 F 值 '); 
SR 


s# disp( 'FF(i) 代 表 第 i 类 数据 的 F 值 '); 
% FF = max(F,[],2) 

名 disp( ' 整 个 聚 类 结果 的 了 值 ) 

% F final = mean(FF); 


程序 运行 完 之 后 ,得 到 聚 类 结果 图 界面 如 图 4-22 所 示 。 


可 加 区 RISS 和 IDR 0 eo 
聚 类 效果 图 


图 4-22 ISODATA 算法 聚 类 结果 图 界面 
程序 运行 完 之 后 ,在 命令 窗口 出 现 如 下 结果 : 


是 否 要 设置 输入 参数 ?是 请 输入 "1", 否 请 输入 "0": T=1 
请 输入 预期 聚 类 中 心 数目 : K= 4 

请 输入 每 一 聚 类 中 最 少 样本 数 : Qn= 2 

请 输入 一 个 聚 类 中 样本 距离 分 布 的 标准 差 : Qs= 1 

请 输入 两 类 聚 类 中 心间 的 最 小 距离 : Qc = 4 

Ee 


了 = 
4 

center = 

1.0e+03 * 

1.2492 1.9473 2.9441 

0.3012 3.2749 2.2052 

2.2603 3.0410 1.0579 

1.7434 1.7495 2.0070 
ans= 
1 一 27 列 
4 4 3 4 2 3 3 4 2 4 4 
2 三 | 2 4 2 3 3 4 4 2 
28 一 30 列 


4.7.3 结论 


MATLAB 编程 实现 的 优点 主要 是 通过 模拟 ISODATA 算法 的 思想 ,根据 同类 样本 分 
布 密集 性 的 特点 很 容易 归 类 。 但 是 ,由 于 大 量 采用 矩阵 运算 ,每 次 欠 代 都 会 产生 新 的 重 排 矩 
阵 , 对 于 计算 时 间 和 空间 并 不 是 一 种 很 好 的 利用 。 特 别 是 针对 ISODATA 这 种 算法 ,在 样 
本 数目 非常 大 时 是 非常 费时 的 ,因此 有 必要 进一步 改进 。 


(1) 什么 是 聚 类 ? 聚 类 的 准则 是 什么 ? 

(2) 简 述 K 均值 聚 类 的 原理 。 

(3) 简 述 开 均值 算法 的 优 缺 点 。 

(4) 简 述 KK 均值 算法 .KNN 算法 及 PAM 算法 的 区 别 。 
(5) 简 述 层次 聚 类 算法 的 原理 。 

(6) 简 述 IOSDATA 算法 的 原理 。 


模糊 聚 类 分 析 


一 个 古老 的 希腊 悖 论 是 :“ 一 粒 种 子 肯定 不 叫 一 堆 ,两 粒 也 不 是 ,三 粒 也 不 是 …… 然而 ， 
所 有 的 人 都 同意 ,一 亿 粒 种 子 肯定 叫 一 堆 。 那 么 ,适当 的 界限 在 哪里 ? 我 们 能 不 能 说 ， 
123 585 粒 种 子 不 叫 一 堆 而 123 586 粒 就 构成 一 堆 呢 ?” 

这 一 古老 的 问题 向 “精确 ”求解 问题 提出 了 挑战 。 那 么 “模糊 ”是 否 可 以 给 这 一 古老 的 问 
题 画 上 圆满 的 句号 呢 ? 


许多 概念 没有 一 个 清晰 的 外 延 ,比如 我 们 不 能 在 年 龄 上 画 线 , 线 内 是 年 轻 人 ,而 在 线 外 
就 是 老年 人 ; 另外 ,有 些 概 念 本 身 具有 开放 性 ,比如 智慧 ,我 们 不 可 能 列举 出 应 满足 的 全 部 
条 件 。 因 此 ,出 现 了 “模糊 ”。 模 糊 性 是 伴随 着 复杂 性 而 出 现 的 ,比如 判断 一 个 人 是 否 年 轻 ， 
可 能 就 会 从 年 龄 .外貌 心态 等 方面 综合 考察 。 模 糊 性 也 是 起 源 于 事物 的 发 展 变化 性 的 , 比 
如 人 从 年 轻 逐 渐 走 向 年 老 , 这 一 过 程 是 渐变 的 ,处 于 过 渡 阶 段 的 事物 的 基本 特征 是 不 确定 
的 ,其 类 属 是 不 清楚 的 。 所 以 ,总 是 存在 不 确定 性 , 即 模糊 。 

有 关 模 糊 罗 辑 的 第 一 次 发 表 要 追溯 到 1965 年 。 美 国 加 利 福 尼 亚 大 学 伯克利 分 校 的 系 
统 理论 专家 L. A. Zadeh 教授 把 经 典 集合 与 ]. Lukasievicz 的 多 值 馆 辑 融 为 一 体 ,创立 了 模 
糊 逻 辑 理论 。 

模糊 逻辑 的 首次 应 用 发 生 在 欧洲 。1974 年 ,英国 伦敦 Queen Mary 学 院 的 E. H. 
Mamdani 教授 使 用 模糊 逻辑 控制 不 能 使 用 传统 技术 控制 的 蒸汽 机 ,从 而 开创 了 模糊 控制 的 
护 更 。 

之 后 ,德国 亚 琛 工业 大 学 的 Hans-Jirgen Zimmermann 将 模糊 逻辑 用 于 决策 支持 系统 。 
随后 ,模糊 逻辑 相继 应 用 到 其 他 工业 领域 ,如 多 变量 非 线 性 热 水 场 的 控制 和 水 泥 窒 的 控制 
等 ,但 此 时 模糊 逻辑 在 工业 上 仍 未 得 到 广泛 肯定 。 而 为 数 不 多 的 使 用 模糊 逻辑 的 应 用 也 通 
过 使 用 多 值 逻 辑 或 连续 逻辑 限制 模糊 逻辑 ,从 而 掩盖 了 模糊 逻辑 的 思维 模式 。 

在 欧洲 ,从 1980 年 左右 开始 ,模糊 逻辑 在 决策 支持 和 数据 分 析 应 用 方面 势头 强劲 。 
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外 ”| 模糊 集合 


医生 在 评估 就 诊 者 是 否 患 有 重 感 冒 时 ,在 脑子 中 没有 精确 的 阔 值 ,那么 他 们 是 如 何 下 定 
论 的 呢 ? 心理 学 研究 已 经 表明 : 医生 在 做 出 结论 时 要 与 两 个 “原型 "对 照 ,一 个 “原型 ”为 理 
想 的 重 感 冒 患者 ,症状 是 脸色 苍白 .出 汗 并 伴 有 寒战 ; 另 一 个 “原型 ”为 没有 发 热 且 没有 发 热 
征兆 的 健康 人 。 医 生 参 照 这 两 个 极端 确诊 就 诊 者 属于 这 两 个 极端 的 程度 。 


5.2.1 由 经 典 集 合 到 模糊 集合 


如 何 对 医生 诊断 过 程 建立 数学 模型 ? 根据 集合 理论 ,首先 定义 一 个 包括 所 有 重 感冒 患 
者 的 集合 ,然后 定义 一 个 数学 函数 ,用 于 表明 每 一 个 患者 是 否 属于 这 个 集合 。 在 传统 数学 
中 ,这 个 指标 函数 可 以 唯一 鉴定 每 一 个 患者 是 集合 的 成 员 或 非 成 员 , 如 图 5-1 所 示 。 图 中 黑 
色 区 域 为 " 患 重 感冒 的 患者 的 集合 ,体温 高 于 102 下 的 患者 属于 重 感冒 患者 。 


重 感冒 患者 子 集 


十 非 重 感冒 患者 子 集 


图 5-1 经 典 集合 表示 重 感冒 患者 集合 (体温 高 于 102 下 的 患者 属于 重 感冒 患者 ) 


在 经 典 集合 中 涉及 如 下 概念 。 

论 域 : 被 讨论 对 象 的 全 体 , 又 称 为 全 域 ,通常 用 大 写字 母 U、E、X、Y 等 来 表示 。 

元 素 , 组 成 某 个 集合 的 单个 对 象 称 为 该 集合 的 一 个 元 素 ,通常 用 小 写 a.b、+、y 等 来 
表示 。 

子 集 : 由 同一 集合 的 部 分 元 素 组 成 的 一 个 新 集合 , 称 为 原 集合 的 一 个 子 集 , 通 常用 大 写 
字母 A.B、C 等 来 表示 。 

通常 将 集合 分 为 有 限 集 (含有 有 限 多 个 元 素 ) 和 无 限 集 (含有 无 限 多 个 元 素 )。 有 限 集 常 
用 枚 举 法 表示 ,如 A 二 {x1,z2，… ,x,) ,表明 集合 A 含有 nn 个 元 素 。 如 果 对 象 个 体 z+ 是 属于 
A 的 一 个 元 素 时 ,就 记 为 zxEA, 读 作 z 属 于 A; 如 果 对 象 个 体 z 不 是 集合 A 的 元 素 时 ,就 记 
为 zx 人 A, 读 作 工 不 属于 A。 无 限 集 常 用 描述 法 表示 ,如 B={z|z>2} ,表明 所 有 大 于 2 的 
数 都 属于 集合 B。 

经 典 集合 还 有 一 种 表示 方法 , 即 特征 函数 (或 隶属 度 函 数 ) 法 , 它 用 特征 函数 来 确定 一 个 
集合 。 


设 集合 A 是 论 域 U 的 一 个 子 集 。 所 谓 A 的 特征 函数 Xa(z): VzEU, 若 zxEA, 则 规 


定 Xa(z) 王 1; 否则 Xa(Cz) 一 0, 即 Zo) 
fl，zeA IOF====== 
二 人 | 
lo, rg¢A | ! 
任 一 特征 函数 都 唯一 确定 了 一 个 集合 。 也 就 是 说 ， 1 1 
对 于 经 典 集合 , 论 域 U 中 的 任何 一 个 元 素 ,对 于 6 | 和 


某 一 确定 的 集合 A, 要 么 zEA, 要 么 TA。 特征 
函数 示意 图 如 图 5-2 所 示 。 

显然 ,如 果 想 根据 患者 是 重 感冒 患者 还 是 非 重 感冒 患者 来 定义 一 个 U 上 的 经 典 集合 ， 
将 存在 一 定 的 困难 。 对 于 某 些 不 具有 清晰 边界 的 集合 ,经 典 集合 无 法 定义 。 

由 于 经 典 理论 存在 这 样 的 局 限 性 ,而 人 们 又 希望 使 用 集合 的 概念 表述 模糊 的 事物 ,这 就 
需要 新 的 理论 弥补 经 典 集合 的 局 限 性 ,因而 引出 了 模糊 集合 理论 。 


图 5-2 特征 函数 示意 图 


5.2.2 模糊 集合 的 基本 概念 


模糊 集合 论 是 一 门 用 清晰 的 数学 方法 描述 边界 不 清 的 事物 的 数学 理论 。1965 年 美国 
教授 LL. A. Zadeh 将 经 典 集合 里 的 特征 函数 的 取 值 范围 由 (0,1)} 扩 展 到 闭 区 间 [0,1], 认 为 某 
-事物 属于 某 个 集合 的 特征 函数 不 仅 只 有 0 或 1, 而 是 可 以 取 0~1 的 任何 数值 , 即 一 个 事 
物 属于 某 个 集合 的 程度 ,可 以 是 0~1 的 任何 值 。 图 5-3 所 示 为 用 模糊 集合 表示 的 重 感冒 患 
者 集合 。 图 中 使 用 颜色 深浅 来 表示 不 同体 温 隶属 于 重 感冒 集合 的 程度 ,从 中 可 以 看 出 : 体 
温 为 4 下 的 患者 肯定 不 是 重 感冒 患者 ,而 体温 为 110 下 的 患者 一 定 是 重 感冒 患者 ,而 体温 介 
于 之 间 的 患者 仅 在 一 定 程度 上 趋向 于 重 感冒 ,这 样 就 引出 了 模糊 集合 的 概念 。 


模糊 集合 表示 的 
重 感冒 忠 者 集合 


图 5-3 用 模糊 集合 表示 的 重 感冒 患者 集合 


定义 1: 设 U 是 论 域 ,U 上 的 一 个 实 值 函 数 用 paA(Z) 来 表示 , 即 ya(z):T>[0,1], 则 称 
集合 A 为 论 域 U 上 的 模糊 集合 或 模糊 子 集 ; 对 于 工 EA,pa(z) 称 为 工 对 和 的 隶属 度 , 而 
Apa(Z) 称 为 隶属 度 函 数 。 

这 样 ,对 于 论 域 U 的 一 个 元 素 z 和 口上 的 一 个 模糊 子 集 A ,我 们 不 再 是 简单 地 问 x 绝 
对 属于 还 是 不 属于 A ,而 是 问 工 在 多 大 程度 上 属于 A 。 隶 属 度 ya(x) 正 是 x 属于 A 的 程度 


< 
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的 数量 指标 。 若 : 

jaA(ZX) 二 1, 则 认为 x 完全 属于 A; 

jaA(ZX) 二 0, 则 认为 xz 完全 不 属于 A; 

0<pa (zx) 过 1, 则 认为 x 在 ja(zx) 程 度 上 属于 A。 

这 时 ,在 完全 属于 A 和 不 完全 属于 A 的 元 素 之 间 , 呈 现 出 中 间 过 渡 状 态 ,或 者 叫 作 连续 

变化 状态 ,这 就 是 我 们 所 说 的 A 的 外 延 表现 出 不 分 明 的 变化 层次 ,或 者 表现 出 模糊 性 。 

此 时 ,根据 模糊 的 定义 就 可 以 在 患者 体温 和 重 感冒 之 间 做 出 如 下 分 析 : 
pa(94F)=0,pa(100F)=0. 1,ua(106F)=0.9 
Aa(96°F)=0,ua(102°F)=0.35,ua(108°F)=1 
pa(98F)=0,pa(104F)=0.65,ua(110°F)=1 

为 了 清晰 地 判断 患者 的 体温 是 否 已 达到 重 感冒 的 程度 ,或 者 患者 的 体温 属于 重 感冒 的 

程度 ,可 以 使 用 图 5-4 所 示 的 隶属 度 函 数 表示 。 从 图 中 可 以 看 出 ,102 下 的 体温 和 101.9F 的 
体温 被 评估 为 重 感冒 的 程度 是 不 同 的 ,但 它们 之 间 的 差别 特别 小 。 这 样 的 表示 方法 更 接近 
人 的 思维 习惯 。 


AHCD 


96 100 104 108 
体温 PF 
图 5-4 属于 重 感冒 的 隶属 度 函 数 图 

综 上 所 述 ,可 以 得 出 这 样 的 结论 : 模糊 集 是 传统 集合 的 推广 ; 传统 指标 函数 的 y= 二 0 和 
4 三 1 刚好 是 模糊 集合 的 特例 。 

模糊 集合 A 是 一 个 抽象 的 东西 ,而 函数 a(z) 则 是 具体 的 , 即 重 感冒 患者 的 模糊 集合 
很 难 把 握 , 因 此 只 能 通过 体温 属于 重 感冒 的 隶属 度 函 数 来 认识 和 掌握 集合 A。 

常用 的 模糊 集合 有 以 下 3 种 表示 方法 。 

(1) 序 偶 表 示 法 : A={(zpa(Cz)),zEU)。 

(2) Zadeh 表示 法 : 当 论 域 U 为 有 限 集 , 即 U={ziyza,…'zo} 时 ,U 上 的 模糊 集合 A 
可 表示 为 A={pa(Czi)/zi 十 pa(Czz)/za pa(za)Vzs}i 当 论 域 U 为 无 限 集 时 , 记 作 A = 


| cp 


(3) 隶属 度 函 数 解析 式 表 示 法 : 当 论 域 U 上 为 实数 集 R 上 的 某 区 间 时 ,直接 给 出 模糊 
集合 隶属 度 函 数 的 解析 式 , 是 使 用 十 分 方便 的 一 种 表达 形式 。 如 Zadeh 给 出 “年 轻 ” 的 模糊 
集合 Y, 其 隶属 度 函 数 为 

1, 0 委 工 么 25 
Ly (Xx) -| 


1 半 (三 2)]. 25 =x<100 


Zadeh 给 出 “年 轻 ” 的 模糊 集合 Y 的 隶属 度 函 数 图 如 图 5-5 所 示 。 


(5-1) 


Hy(x) 
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1 
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图 5-5 Zadeh 给 出 “年 轻 ” 的 模糊 集合 Y 的 隶属 度 函 数 图 


为 了 书写 方便 ,模糊 集合 可 写成 F 集 (Fuzzy 的 首 个 大 写字 母 ); 下 集合 A 的 隶属 度 函 
数 wa(z) 简 记 为 ACz) 。 

定义 2: 设 A 和 B 均 为 U 上 的 模糊 集 , 如 果 对 所 有 的 x, 即 YVYrIEU, 均 有 ja(x) 二 ja (x)， 
则 称 A 和 B 相等 , 记 作 A==B。 

定义 3: 设 A 和 也 均 为 [上 的 模糊 集 , 如 果 VzEU, 均 有 Ja(Cz) 生 pa(zr), 则 称 卫 包含 
和 ,或 者 称 A 是 B 的 子 集 , 记 作 ACB。 

定义 4: 设 A 为 U 中 的 模糊 集 , 如 果 对 VXEU, 均 有 ja(x) 二 0, 则 称 A 为 空 集 , 记 作 名 。 

定义 5: 设 A 为 U 中 的 模糊 集 , 如 果 对 VxEU, 均 有 ja(x) 二 1, 则 称 A 为 全 集 , 记 作 Q。 

显然 ,TA<Q。 

对 于 同样 的 背景 ,我 们 可 能 有 多 个 主观 判断 ,如 图 5-6 所 示 。 其 中 ,low 曲线 为 “体温 低 
于 正常 体温 ?隶属 度 函 数 图 ; normal 曲线 为 “正常 体温 ?隶属 度 函数 图 ; raised 曲线 为 “体温 
高 于 正常 体温 但 低 于 重 感冒 患者 体温 ?隶属 度 函 数 图 ; strong_fever 曲线 为 “ 重 感冒 患者 体 
温 ” 的 隶属 度 函 数 图 。 

定义 6: 论 域 U 上 的 模糊 集 A 包含 了 U 中 所 有 在 A 上 具有 非 零 隶属 度 值 的 元 素 , 即 
supp(A) 二 {rEUl|ja(x) 记 0), 式 中 supp(A) 表 示 模糊 集合 A 的 支 集 。 模 糊 集 的 支 集 是 经 
典 集合 。 

定义 7: 如 果 一 个 模糊 集 的 支 集 是 空 的 , 则 称 该 模糊 集 为 空 模糊 集 。 

定义 8: 如 果 模 糊 集 合 的 支 集 仅 包 含 U 中 的 一 个 点 , 则 称 该 模糊 集 为 模糊 单 值 。 

定义 9: 论 域 U 上 的 模糊 集 A 包含 了 U 中 所 有 在 A 上 隶属 度 值 为 1 的 元 素 , 即 
Ker(A) 二 {rEU|pa(zx) 二 1), 式 中 Ker(A) 表 示 模 糊 集合 A 的 核 。 模 糊 集 的 核 也 是 经 典 集合 。 

定义 10: 如 果 模 糊 集 的 隶属 度 函 数 达 到 其 最 大 值 的 所 有 点 的 均值 是 有 限 值 , 则 将 该 均 
值 定义 为 模糊 集 的 中 心 ; 如 果 该 均值 为 正 ( 负 ) 无 穷 大 , 则 将 该 模糊 集 的 中 心 定义 为 所 有 达 
到 最 大 隶属 度 值 的 点 中 的 最 小 (最 大 ) 点 的 值 ,如 图 5-7 所 示 。 


| 低 伐 正常 ”发烧 高 烧 
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0 oo6 100 104 108 
体温 °F 低烧 的 中 心 “发 烧 的 中 心 高 烧 的 中 心 


图 5-6 同样 背景 的 不 同 主观 判断 隶属 度 函 数 图 图 5-7 一些 典 型 模糊 集 的 中 心 


定义 11: 一 个 模糊 集 的 交叉 点 就 是 U 中 隶属 于 A 的 隶属 度 值 等 于 0.5 的 值 。 
定义 12: 模糊 集 的 高 度 是 指 任意 点 所 达到 的 最 大 隶属 度 值 。 图 5-8 所 示 的 隶属 度 函 数 
的 高 度 均等 于 1。 


0 
图 5-8 三 角形 、 钟 形 及 S 形 隶属 度 函 数 图 


如 果 一 个 模糊 集 的 高 度 等 于 1, 则 称 为 标准 模糊 集 。 
定义 13: 设 A 是 以 实数 及 为 论 域 的 模糊 集 , 其 隶属 度 函 数 为 ya(7), 如 果 对 任意 实数 
a 二 x 二 b, 都 有 


HA(T) min(pya(a) pa(b)) ab,rER 


则 称 A 是 一 个 凸 模糊 集 。 
与 凸 模糊 集 相 对 的 为 非 凸 模糊 集 , 凸 模糊 集 与 非 凸 模糊 集 的 示意 图 如 图 5-9 所 示 。 


HY) Hlx) 


! 
! 
b 


! 
b 


0 a x x 0 a 到 


(9) 凸 模糊 集 (b) 非 凸 模糊 集 
图 5-9 西 模糊 集 与 非 凸 模糊 集 示 意图 


5.2.3 隶属 度 函 数 


经 典 集合 使 用 特征 函数 来 描述 ,模糊 集合 使 用 隶属 度 函 数 作 定量 描述 。 因 此 ,隶属 度 函 
数 是 模糊 集合 的 核心 。 定 义 一 个 模糊 集合 就 是 定义 论 域 中 各 个 元 素 对 该 模糊 集合 的 隶属 度 。 

经 典 集合 的 特征 函数 的 值 域 为 集合 {0,1) ,模糊 集合 的 隶属 度 函 数 的 值 域 为 区 间 [0,1]。 
隶属 度 函 数 是 特征 函数 的 扩展 和 一 般 化 。 


为 确定 ， 


从 使 用 模糊 集合 表示 的 重 感冒 患者 一 例 中 可 以 看 出 ,体温 隶属 于 重 感冒 的 程度 需要 人 


即 模糊 集合 隶属 度 函数 是 人 为 主观 定义 的 一 种 函数 。 从 隶属 度 函 数 的 确定 过 程 看 ， 


隶属 度 函数 本 质 上 说 应 该 是 客观 的 ,但 每 个 人 对 于 同一 个 模糊 概念 的 认识 理解 又 有 差异 。 


因此 , 隶 


属 度 函 数 的 确定 又 带 有 主观 性 。 所 以 ,隶属 度 函 数 包 含 了 太 多 的 人 的 主观 意志 ， 


而 很 难 使 用 统一 的 方法 确定 隶属 度 函 数 。 
对 于 同一 个 模糊 概念 ,不 同 的 人 会 建立 不 完全 相同 的 隶属 度 函 数 ,尽管 形式 不 完全 相 


同 ,只 要 能 反映 同一 模糊 概念 ,在 解决 和 处 理 实际 模糊 信息 的 问题 中 仍然 殊途同归 ,这 是 因 
为 隶属 度 函 数 是 人 们 长 期 实践 经 验 的 总 结 , 可 以 反映 客观 实际 ,还 具有 一 定 的 客观 性 、 科 学 
性 和 准确 性 。 至 今 为 止 ,确定 隶属 度 函数 的 方法 大 多 依靠 经 验 、 实 践 和 实验 数据 ,经 常 使 用 
的 确定 隶属 度 函数 的 方法 有 以 下 4 种 。 


1. 模糊 统计 法 


模糊 统计 法 的 基本 思想 : 对 论 域 U 上 的 一 个 确定 元 素 zi 是 否 属于 论 域 上 的 一 个 可 变 
动 的 经 典 集合 B 做 出 清晰 的 判断 。 对 于 不 同 的 试验 者 ,经 典 集合 B 可 以 有 不 同 的 边界 ,但 
它们 都 对 应 于 同一 个 模糊 集 A。 在 每 次 统计 中 ,zi 是 固定 的 ,B 的 值 是 可 变 的 , 作 n 次 试 
验 , 其 模糊 统计 可 按 下 式 进行 计算 
ZX1 € A 的 次 数 


zz! 对 A 的 隶属 频率 一 -试验 总 次 数 人 


随 着 的 增 大 ,隶属 频率 也 会 趋向 稳定 ,这 个 稳定 值 就 是 x 对 A 的 隶属 度 值 。 这 种 方 
法 较 直 观 地 反映 了 模糊 概念 中 的 隶属 程度 ,但 其 计算 量 较 大 。 


(5-2) 


2. 例证 法 


例证 法 的 主要 思想 是 从 已 知 有 限 个 ya(x) 的 值 ,来 估计 论 域 U 上 的 模糊 子 集 A 的 隶属 
度 函数 。 如 论 域 U 代表 全 体 人 类 ,A 是 “高 个 子 的 人 ”, 显 然 A 是 一 个 模糊 子 集 。 为 了 确定 
LJ4， 先 确定 一 个 高 度 值 , 然 后 选 定 几 个 语言 真 值 ( 即 一 句 话 的 真实 程度 ) 中 的 一 个 来 回答 某 
人 是 否 算 “高 个 子 ”。 语 言 真 值 可 分 为 “ 真 的 “大 致 真 的 “ 似 真 似 假 “大 致 假 的 ?和 *“ 假 的 ”五 
种 情况 ,并 且 分 别 用 数字 1、0. 75、0. 5、0.25、0 来 表示 这 些 语言 真 值 。 对 个 不 同 高 度 几 1， 
ha，"… ,hn 都 作 同样 的 询问 ,就 可 以 得 到 A 的 隶属 度 函数 的 离散 表示 。 


3. 专家 经 验 法 


专家 经 验 法 是 根据 专家 的 实际 经 验 给 出 模糊 信息 的 处 理 算式 或 相应 权 系数 值 来 确定 隶 
属 度 函 数 的 一 种 方法 。 在 许多 情况 下 ,首先 确定 粗略 的 隶属 度 函 数 , 然 后 青 通过 学习” 和 实 
践 检验 逐步 修改 和 完善 ,而 实际 效果 正 是 检验 和 调整 隶属 度 函 数 的 依据 。 

4. 二 元 对 比 排序 法 

二 元 对 比 排序 法 是 一 种 较 实 用 的 确定 隶属 度 函 数 的 方法 。 它 通过 对 多 个 事物 之 间 的 两 
两 对 比 来 确定 某 种 特征 下 的 顺序 ,由 此 来 决定 这 些 事物 对 该 特征 的 隶属 度 函 数 的 大 体形 状 。 
二 元 对 比 排序 法 根据 对 比 测度 不 同 , 可 分 为 相对 比较 法 、 对 比 平均 法 、 优 先 关系 定 序 法 和 相 
似 优先 对 比 法 等 。 

在 实际 工作 中 ,为 了 兼顾 计算 和 处 理 的 简便 性 经常 把 使 用 不 同方 法 得 出 的 数据 近似 地 
表示 成 常用 的 解析 函数 形式 ,构成 常用 的 隶属 度 函 数 。 

(1) 三 角形 : 三 角形 隶属 度 曲线 对 应 的 数学 表达 式 为 


Os 天 年 
= a<r<b 
一 在 
JCzaypc) = (5-3 
2 二 br<e 


0， LS 


模式 识别 与 人 工 智能 (基于 MATLAB) 


(2) 钟 形 : 钟 形 隶属 度 曲线 对 应 的 数学 表达 式 为 


Crzyaypyc) = (5-4) 


Ea 
六 一 浇 


1+ | 


式 中 ,c 决定 函数 的 中 心 位 置 ; a.6b 决定 函数 的 形状 。 
(3) 高 斯 : 高 斯 隶属 度 曲线 对 应 的 数学 表达 式 为 


人 zeD2 


Crzyoyc) 一 e ww (5-5) 
式 中 ,c 决定 函数 的 中 心 位置 ; o 决定 函数 曲线 的 宽度 。 
(4) 梯形 : 梯形 隶属 度 曲线 对 应 的 数学 表达 式 为 


a 


0， ra 
Es. sre 
二 亲 二 区 二 让 (5-6) 
4， [= 剖 卫 -二 -| 
Os 4 


式 中 ab,c<d。 
(5) Sigmoid 形 : Sigmoid 形 隶 属 度 曲 线 对 应 的 数学 表达 式 为 


JCzayc) 一 《5-7 


Eh 
1 十 e TaCz 一 c) 
式 中 ,ae 决定 函数 的 形状 。 


模糊 集合 的 运算 


和 经 典 集合 一 样 , 模 糊 集 合 也 包含 “ 交 ”“ 并 ”和 “ 补 ” 运 算 。 比 如 选 购 衣 服 , 到 底 选 择 哪 件 
衣服 呢 ? 花色 较 好 、 样 式 不 错 , 价 格 也 合理 的 衣服 应 该 是 理想 的 选择 ,这 就 应 用 到 了 模糊 集 
合 的 “ 交 ” 运 算 ; 比如 点 菜 , 要 劳 素 搭配 ,此 时 就 需要 进行 模糊 集合 的 “并 ”运算 ; 比如 租 一 处 
面积 不 大 的 房子 , 则 可 求 取 “ 面 积 大 的 房子 ”的 集合 的 补 集 。 可 见 ,通过 对 模糊 集合 做 运算 ， 
可 得 到 更 多 衍生 结论 。 


5.3.1 模糊 集合 的 基本 运算 


定义 14: 设 A .也 为 可 中 的 两 个 模糊 集 。 隶 属 度 函 数 分 别 为 WUa(CZz) 和 HAa(z), 则 模糊 集 
A 和 B 的 并 集 AUB、 交 集 ANB 和 补 集 AS 的 运算 可 通过 它们 的 隶属 度 函 数 来 定义 ; 

并 集 : jaus(z) 二 ja(z)V ja(zx), 其 中 V 表示 两 者 比较 后 取 大 值 。 

交集 : jana(z) 二 ya(z)Apa(x), 其 中 人 表示 两 者 比较 后 取 小 值 。 

补 集 : pac(z) 一 1 一 pa(z)。 

模糊 集合 的 基本 运算 可 用 图 5-10 所 示 曲 线 加 以 说 明 。 
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运算 示意 图 


图 5-10 ”模糊 集合 的 基本 
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需要 注意 的 是 ,在 经 典 集合 中 ,集合 A 和 它 的 补 集 A 的 并 集 为 全 集 ,集合 A 和 它 的 补 


集 A5 的 交集 为 空 集 ,但 在 模糊 集 
如 图 5-11 所 示 。 


An) 


HY) 
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na 
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合 论 中 却 没 有 这 样 的 结论 。 这 里 用 图 示 的 方法 加 以 理解 ， 


| 二 
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图 5-11 模糊 集合 A 和 它 的 补 集 A 的 交集 及 并 集 


虽然 模糊 集合 的 基本 运算 与 经 典 集合 的 基本 运算 有 许多 相似 之 处 ,但 是 经 典 运算 是 对 
论 域 中 元 素 的 归属 做 新 的 划分 ,而 模糊 集合 的 运算 是 对 论 域 中 的 元 素 对 于 模糊 集合 的 隶属 


度 做 新 的 调整 。 


定义 15: 设 A.B 为 U 中 的 两 个 模糊 集 ,来 属 度 函数 分 别 为 paCz) 和 na(z), 则 模糊 集 


A 和 B 的 代数 积 (A。B)、 代 数 和 
属 度 函 数 定义 如 下 : 


(A 十 B)、 有 界 和 (A 吕 B)、 有 界 积 (A©B) 可 通过 它们 的 来 


代数 积 : pa.B(CZ) 一 pa(CT)XHpa(Z)。 
代数 和 : Ha+B(Z) 一 Apa(CZz) 十 pa(CT) 一 ApACT)。Ha(CZ)。 


有 界 和 : ja@B (XT) 三 (ja (xz) 

有 界 积 : jaeB (x) 二 (ja(z)1 
式 中 ,min 为 取 最 小 值 运算 ; max 
积 、 有 界 和 、 有 界 积 的 图 示 。 


Hua (rz)) Ml=min(A(z)+B(z) ,1), 
Hys(x)) V0 一 max(0,A(Cz) 十 BCz) 一 1)。 
为 取 最 大 值 运 算 。 图 5-12 所 示 为 模糊 集合 代数 和 、 代 数 


5.3.2 ”模糊 集合 的 基本 运算 规律 


两 个 模糊 集合 的 运算 ,实际 上 就 是 逐 点 对 其 隶属 度 作 相应 的 运算 。 模 糊 集合 A, B,CE 
F(U) 的 并 、 交 、 补 运算 满足 以 下 性 质 : 


HX) 
10 Ha Ha Ha 


(a) A:B (b) 4+B 
ux) i Huan) Ai 
1.0 es 1.0 
0 > 0 
(¢) 4OB (d) AOB 


图 5-12 模糊 集合 代数 和 代数 积 有 界 和 、 有 界 积 的 图 示 


(1) 宪 等 律 : AUA=A,ANA=A。 

(2) 交换 律 : AUB=BUA,ANB=BNA。 

(3) 结合 律 : (AUB)UC=AU(CBUC), (AnB)nmc=aAnCBnoc) 。 

(4) 吸收 律 ; (AnB)UA=A,(AUB)mA=A。 

(5) 分 配 律 : AN (BUOC)=(ANB)YU(ANO,AU(BNO=(AUB)N (AUO), 

(6) 零 一 律 : AUU=U; ANU=A; AUg=A; An OZ= 区 。 

(7) 复原 律 : (A)°==A。 

(8) 摩根 律 : (AUB)<=A4cmBc;， (ANB)°=A°UB°。 

模糊 集合 与 经 典 集合 的 一 个 显著 的 不 同 之 处 是 : 模糊 集合 的 并 、 交 、 补 运算 一 般 不 满足 
补 余 律 , 即 AUA 关 U,ANAC 关 2。 


5.3.3 模糊 集合 与 经 典 集合 的 联系 


当 医 生 诊 断 发 热 患 者 是 否 为 重 感冒 患者 时 ,就 需要 对 “ 重 感冒 "这 一 模糊 概念 有 明确 的 
认识 和 判断 。 当 判断 某 个 发 热 患者 对 “ 重 感冒 "集合 的 明确 归属 时 ,这 就 要 求 模 糊 集 合 与 经 
典 集合 可 以 依据 某 种 法 则 相互 转换 。 模 糊 集合 与 经 典 集 合 之 间 的 联系 可 通过 )- 截 集 和 分 解 
定理 表示 。 

定义 16: 一 个 模糊 集 的 4- 截 集 是 指 包 含 U 中 所 有 来 属于 A 的 、 来 属 度 值 大 于 等 于 和 的 
元 素 , 即 A 一 {x7EU |ja (xz) 之 4)}。- 截 集 示意 图 如 图 5-13 所 示 。 

其 中 ,图 5-13(b) 所 示 为 4;- 截 集 的 特征 函数 描述 ; 图 5-13(c) 所 示 为 4- 截 集 的 特征 函 
数 描述 。 从 图 可 以 看 出 ,)- 截 集 是 经 典 集合 。 对 于 )- 截 集 ,我 们 可 以 这 样 理解 : 模糊 集合 A 
本 身 是 一 个 没有 确定 边界 的 集合 ,但 是 如 果 约 定 , 凡 工 对 A 的 隶属 度 达 到 或 超过 某 个 水 
平 者 才 算 是 A 的 成 员 ,那么 模糊 集合 A 就 变 成 了 普通 集合 Ai。 

当 X 二 1 时 ,得 到 最 小 水 平 截 集 Ai , 即 模糊 集 A 的 核 ; 当 王 0 “时 ,得 到 最 大 水 平 的 截 
集 , 即 模糊 集 A 的 支 集 。 

若 模糊 集 A 的 核 非 空 , 则 称 A 为 正规 模糊 集 ; 否则 , 称 A 为 非 正规 模糊 集 。 
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定义 17: 设 A 是 普通 集合 ,XE[L0,1], 做 数量 积 运 算 , 得 到 一 个 特殊 的 模糊 集 X4, 其 隶 
属 度 函 数 为 
1A， TEA 


zi -| (5-8) 
0, I¢A 


分 解 定理 : 设 A 为 论 域 x 上 的 模糊 集合 ,A; 是 A 的 截 集 , 则 A 一 【J XA,。 
分 解 定 理 可 用 图 5-14 表示 。 


Ai 
1.0 


1 (a) 


-1 


(b) 


(©) 


0 


mE-—An | 当 


图 5-13 )- 截 集 示意 图 图 5-14 分 解 定理 示意 图 


如 果 》 遍 取 区 间 [0,1] 中 的 实数 ,按照 模 枯 集 合 求 并 运算 的 法 则 ， jaA, 恰好 取 各 》 


点 隶属 度 函 数 的 最 大 值 ,将 这 些 点 连 成 一 条 曲线 , 正 是 A 的 隶属 度 函 数 waA(z)。 
例 2; 设 A 0.2 | 20.7+1 | 
Ao.z = {sua sus us sus)} 
0 下 划 | 下 号 | 有 2 
Ul Uz Us Us us 
Aus = {us us rus ss) 
0 证 二 地 五 下 起 吾 风 训 | 下 
Uz us us us 


As > {uz ,zs us} 
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0 
Uz Us Us 
0.7 一 (Uz, us) 
0.7A07 = 2 十 9 
U2 U3 
Ai = {wu} 
l1xA=— 
us 
则 
A= AA; = 0.2Ao.2 U 0.5Aus U 0.6Ao.6 U 0.74oy U Al 
AED0,1] 
0.2 .0.7 1 +460.5 
Ul U2 Us Us Us 


A 是 模糊 集合 ,A 是 经 典 集合 ,它们 之 间 的 联系 和 转化 由 分 解 定理 用 数学 语言 表达 出 
来 。 这 个 定理 也 说 明了 模糊 性 的 成 因 , 大 量 甚 至 无 限 多 的 清晰 事物 释 加 在 一 起 ,总 体 上 就 形 
成 了 模糊 事物 。 


模糊 关系 与 模糊 关系 的 合成 


事物 都 是 普遍 联系 的 ,集合 论 中 的 “关系 ”抽象 地 刻画 了 事物 “精确 性 ”的 联系 ,而 模糊 关 
系 则 从 更 深刻 的 意义 上 表现 了 事物 间 更 广泛 的 联系 。 从 某 种 意义 上 讲 ,模糊 关系 的 抽象 更 
接近 人 的 思维 方式 。 


5.4.1 模糊 关系 的 基本 概念 


元 素 间 的 联系 不 是 简单 的 有 或 无 ,而 是 不 同 程度 的 隶属 关系 ,因此 这 里 引入 模糊 关系 。 
定义 18: 给 定 集合 X 和 了 ,由 全 体 (zyy)(zEX,yEY) 组 成 的 集合 叫 作 和 和 立 的 笛 卡 
儿 积 (或 称 直 积 ) , 记 作 XXY,XXY={(z,y)|(zEX,yEY))。 
例 3: 国际 上 常用 的 人 的 体重 计算 公式 为 标准 体重 = (身高 (cm) 一 100) 0. 9(kg) , 那 
么 实际 身高 与 实际 体重 之 间 就 存在 模糊 关系 。 如 果 身 高 的 集合 X= 二 {150,155,160,165), 体 
重 的 集合 Y= 二 {45,49. 5,54,58.5} , 则 
XXY ={(150,45), (150,49,5),(150,54),(150,58.5), 
C155,45) ,C155.49, 57 (1665654) 156%68; 65) 
(160,45),(160,49.5),(160,54),(160,58.5), 
(165,45), (165,49. 5),(165,54),(165,58.5),} 
定义 19: 存在 集合 X 和 了 ,它们 的 笠 卡 儿 积 XXY 的 一 个 子 集 RR 叫 作 义 到 Y 的 二 元 关 
系 , 简 称 关 系 ,RCXXY。 序 偶 (z,y) 是 笠 卡 儿 积 XXY 的 元 素 , 它 是 无 约束 的 组 对 。 若 给 
组 对 以 约束 , 便 体 现 了 一 种 特定 的 关系 。 受 到 约束 的 序 偶 则 形成 了 和 XXY 的 一 个 子 集 。 
令 若 久 二 Y, 则 称 尺 是 义 中 的 关系 。 
多 如 果 (x,y)ER, 则 称 久 和 YY 有 关系 尺 , 记 作 xzRy。 
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例 4: 身高 集合 X 一 {150,155,160,165) ,体重 集合 Y= 二 {145,49. 5,54,58. 5) ,根据 国际 
上 常用 的 人 的 体重 计算 公式 : 标准 体重 = (身高 (cm) 一 100) X0.9(kg), 则 对 应 身高 “ 非 标 
准 ” 体 重 时 ,可 采用 模糊 关系 表示 身高 、 体 重 与 标准 体重 之 间 的 关系 ,如 表 5-1 所 示 。 
表 5-1 身高 .体重 与 标准 体重 的 模糊 关系 表 


体重 
AR CTyy) 
45 49.5 54 58.5 
150 1 0.75 0.3 0 
身 155 0.75 0.75 0.3 
高 160 0.3 0.75 1 0.75 
165 0 0.3 0.75 1 


令 如 果 (x,y) 儿 R, 则 称 和 YY 没有 关系 , 记 作 xRy, 也 可 用 特征 函数 表示 为 
ju Cry) ER 


LR (x3y) 一 (5-9) 
lo, 


Cry) ER 
当 X 和 Y 都 是 有 限 集合 时 ,关系 可 以 用 矩阵 来 表示 , 称 关系 矩阵 。 设 X= {x1， 
Za YY 一 (yy Ys) , 则 R 可 以 表示 为 R==[rjj]。 其 中 rj 二 jr (xisyj); 
i=1,2,% ,m3 j=1,2,° ,ne 
例 5: 身高 集合 X 一 {150,155,160,165} ,体重 集合 Y= 二 {145,49. 5,54,58. 5) ,根据 国际 
上 常用 的 人 的 体重 计算 公式 : 标准 体重 = (身高 (cm) 一 100) X0.9(kg), 则 对 应 身高 “ 非 标 
准 ” 体 重 时 ,可 采用 模糊 矩阵 表示 身高 .体重 与 标准 体重 之 间 的 关系 。 
1 人 OB 
0.75 1 0.75 
0.3 075 1 
0 全 和 O75 
当 和 矩阵 中 的 元 素 等 于 1 或 等 于 0 时 ,将 这 种 矩阵 称 为 布尔 矩阵 。 
定义 20: 设 有 集合 X、Y, 如 果 有 一 对 关系 存在 ,对 于 任意 并 EX, 有 唯一 的 一 个 yEY 与 
之 对 应 ,我 们 就 说 ,其 对 应 关系 是 一 个 由 和 到 了 的 映射 三 , 记 作 
f:r>Y 
对 任意 TEX 经 映射 后 变 成 yEY, 则 记 作 了 三 f(z), 此 时 处 叫 作 了 的 定义 域 ,而 集合 
f(z)={f(zx)|xzEX} 称 为 了 的 值 域 ,显然 1/(7)CY。 
映射 有 时 也 叫 作 函数 ,但 它 通常 是 函数 概念 的 推广 。 
定义 21: 设 f: X>Y 
多 如 果 对 每 一 Zi,zzEX,zri 天 zz， 则 称 三 为 单 射 (或 称 一 一 映射 ) 。 
多 如 果 三 的 值 域 是 整个 了 , 则 称 三 为 满 射 。 
全 如 果 三 既是 单 射 的 ,又 是 满 射 的 , 则 称 三 为 一 一 对 应 的 映射 。 
模糊 关系 是 指 笛 卡 儿 积 上 的 模糊 集合 ,表示 多 个 集合 的 元 素 间 所 具有 的 某 种 关系 的 程度 。 
定义 22: 所 谓 X 了 两 集合 的 笠 卡 儿 积 入 XY 一 {(zyy)|(zEX,yEY)} 中 的 一 个 模糊 
关系 及 ,是 指 以 入 XY 为 论 域 的 一 个 模糊 子 集 , 序 偶 (z,y) 的 隶属 度 为 pgCzyy)。Hg(Cz,y) 在 
实 轴 的 闭 区 间 取 值 , 它 的 大 小 反映 了 (zx,y) 具 有 关系 R 的 程度 。 


R= 


人 
由 于 模糊 关系 是 一 种 模糊 集合 ,因此 模糊 集合 的 相等 .包含 等 概念 对 模糊 关系 同样 具有 意义 。 
设 X 是 m 个 元 素 构 成 的 有 限 论 域 ,Y 是 n 个 元 素 构 成 的 有 限 论 域 。 对 于 X 到 Y 的 一 
个 模糊 关系 RR, 可 以 用 一 个 mXn 阶 和 矩阵 表示 为 


Pi a Fis 
R= |: : 
ml EN Tn 


或 R=[ry jyrs=pn(ziy zi) i=1,2 mj =12,° yn 

如 果 一 个 矩阵 是 模糊 矩阵 , 它 的 每 一 个 元 素 属 于 [0,1], 则 令 

了 Ba = {R= Lrsl0 < rs < 1} 65-11) 

Fx 表示 m Xn 阶 模糊 和 矩阵 的 全 体 。 

在 有 限 论 域 间 , 普 通 集合 与 布尔 矩阵 建立 了 一 一 对 应 的 关系 ,模糊 关系 和 模糊 矩阵 建立 
了 一 一 对 应 的 关系 。 

由 于 模糊 矩阵 本 身 是 表示 一 个 模糊 关系 的 子 集 R, 因 此 根据 模糊 集 的 并 、 交 、 补 运算 的 
定义 ,模糊 矩阵 也 可 看 作 相应 的 运算 。 

设 模 糊 和 矩阵 R 和 Q 是 XXY 的 模糊 关系 ,R 二 [rij jxw,Q 二 [qsjmxs ,模糊 集合 的 并 、 交 、 
补 运算 为 

模糊 矩阵 并 运算 : RUQ= [rs V gs jnx， 

模糊 矩阵 交 运 算 : RN 站 Q= [rs N gs jnxn 

模糊 矩阵 补 运算 : R= 二 [1 一 ry jmx 

如 果 5 三 gj ,i 二 1,2…… msj 二 1,2,…,n, 则 称 R 被 模糊 和 矩阵 S 包含 , 记 为 RSS; 如 果 
万 一 0 一 1,2, ,7 一 1,2, sn, 则 称 R 被 模糊 矩阵 S 相等 。 

必须 指出 ,一 般 RUR" 取 F,RUR" 取 0, 即 对 模糊 矩阵 互补 律 不 成 立 。 其 中 ,O、F 分 别 
称 为 零 矩 阵 及 全 和 矩阵 , 即 


(5-10) 


是 鹿 | 

0 0 0 0 1 和 由 
和 CE 

0 0 a 0 1 1 a 出 

与 模糊 集 的 多 截 集 相 似 , 在 模糊 矩阵 的 矩阵 截 集 定 义 为 
R; = Li]wxs，AME [0,1] (5-13) 
或 

R= {(z,9) |jr (zis) 三 对 (5-14) 


例 6: 身高 集合 二 {150,155,160,165) ,体重 集合 了 二 {45,49. 5,54,58. 5) ,根据 国际 
上 常用 的 人 的 体重 计算 公式 : 标准 体重 二 [身高 (cm) 一 100]X0.9(kg), 则 XXY 中 的 R 为 
LL 你 吓 站 和 区 
0.75 1 0.75 0.3 
03 0.75 1 0.75 
0 03 0.75 1 
则 .Rais= {Crs9) [parCrsy)20.75} ;BW Rans= {Cresy)s (risya) (Tasy)s (za y3 jo ss 
Yj) ry Cr ys) CTs) CT 5 2 
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如 果 用 矩阵 表示 , 则 


R= 


Oo -~ 
oO- 
js ss a 
"~ Ooo 


5.4.2 模糊 关系 的 合成 


模糊 关系 合成 是 指 由 第 一 个 集合 和 第 二 个 集合 之 间 的 模糊 关系 及 第 二 个 集合 和 第 三 个 
集合 之 间 的 模糊 关系 得 到 第 一 个 集合 和 第 三 个 集合 之 间 的 模糊 关系 的 一 种 运算 。 
模糊 关系 的 合成 的 计算 方法 有 取 大 - 取 小 合成 法 `. 取 大 -乘积 合成 法 .加 法 - 相 乘 合成 法 。 
下 面 给 出 常用 的 取 大 - 取 小 合成 法 的 定义 。 
定义 23: 设 R 是 XXY 中 的 模糊 关系 ,S 是 YXZ 中 的 模糊 关系 ,R 和 S 的 合成 是 下 列 
定义 在 六 XZ 上 的 模糊 关系 Q, 记 作 
Q=R.S (5-15) 
或 
Hpss(CTyz) 一 V {pr(Tsy) 人 Hps(Cyz))} (5-16) 
式 中 ,人 代表 取 小 , V 代表 取 大 ,“。” 表 示 合 成 运算 。 因 此 ,这 一 计算 方法 称 为 取 大 - 取 小 
(max-min) 合 成 法 。 
定义 24: 设 0 二 (gs)wxm:R 二 (rit)mxl 是 两 个 模糊 矩阵 ,它们 的 合成 Q*R 指 的 是 一 个 n 
行 ! 列 的 模糊 答 阵 S,S 的 第 i 行 第 k 列 的 元 素 sn 等 于 Q 的 第 i 行 元素 与 第 k 列 对 应 元 素 两 
两 先 取 较 小 者 ,然后 在 所 有 的 结果 中 取 较 大 者 , 即 


s# =\ (qs Mr), 1<i<nl<k<! (5-17) 
=1 


模糊 算 阵 Q 与 R 的 合成 Q°R 又 称 为 对 R 的 模糊 乘积 ,或 者 称 模糊 矩阵 的 乘法 。 

例 7: 现 对 某 一 餐馆 的 品质 进行 评判 ,评判 的 指标 包括 饭菜 口感 .饭菜 色相 、 环 境 舒 适 
度 、 服 务 态度 及 卫生 状况 5 个 方面 ,用 论 域 Y 来 表示 , 即 

Y 二 (饭菜 口感 ,饭菜 色相 ,环境 舒适 度 , 服 务 态度 ,卫生 状况 } 
而 评判 论 域 用 Z 来 表示 , 即 
Z 二 {很 好 , 较 好 ,可 以 ,不 好 } 

现 邀 请 一 些 专 家 对 这 一 餐馆 给 出 评价 , 即 得 出 YXZ 中 的 模糊 关系 S, 表 5-2 列 出 了 

YXZ 中 的 模糊 关系 S。 


表 5-2 YXZ 中 的 模糊 关系 S 


训 
得 

很 好 较 好 可 以 不 好 
饭菜 口感 0.8 0.15 0.05 0 
饭菜 色相 0.7 0.2 0.1 0 
环境 舒适 度 0.5 0.3 0.15 0.05 
服务 态度 0.4 0.25 0.2 0.15 
卫生 状况 0 0.2 0.3 0.5 


第 5 章 “模糊 聚 类 分 析 
表 5-2 使 用 模糊 矩阵 可 表示 为 
中 0 
7 人 有 在 1 0 
5 08 Q15 005 
4 25 .2 0 
oO Ti 0 05 
在 对 餐馆 作 综合 评定 时 ,各 指标 对 综合 评定 结果 的 影响 因子 不 同 ,对 餐馆 饭菜 口感 (0. 5) 
和 和 餐馆 卫生 状况 (0. 25) 要 求 较 高 ,其 次 为 服务 态度 (0. 1) 和 饭菜 色相 (0. 1) ,对 环境 的 舒适 度 
要 求 较 低 (0. 05) , 则 得 出 影响 因子 集合 X 与 评判 指标 Y 之 间 的 模糊 关系 尺 , 表 5-3 列 出 了 
XXY 中 的 模糊 关系 R。 


SS PP 


表 5-3 XXY 中 的 模糊 关系 及 


让 
芝 
饭菜 口感 饭菜 色相 环境 舒适 度 服务 态度 卫生 状况 
影响 因子 0 0.1 0.05 i 也 下 
表 5-3 使 用 模糊 矩阵 可 表示 为 R=[0.5 0.1 0.05 0.1 0.25]。 
现 要 求 在 不 同 权 重 因子 下 ,做 出 餐馆 综合 品质 结论 。 
此 时 就 要 求 做 模糊 关系 的 合成 , 即 餐 馆 的 综合 品质 Q 为 


0.8 O15 0.05 0 
0.7 0.2 0.1 0 
DO=Reg= WS IT 005 001 kD 05 0 6 东西 
0.4 0.25 0.2 0.15 
@ 0 Wy Qs 
根据 取 大 - 取 小 的 原则 
qi=(0.5A0.8)V (0.1A0.7)V (0.05A0.5)V (0.1A0.4)V (0.25A0)=0.5 
gz=(0.5A0.15)V (0.1A0.2)V (0.05A0.3)V (0.1A0.25)V (0.25A0.2)=0.2 
qs=(0.5A0.05)V (0.1A0.1)V (0.05A0.15)V (0.1A0.2)V (0.25A0.3)=0.25 
qs=(0.5A0)V (0.1A0)V (0.05A0.05)V (0.1A0.15)V (0.25A0.5)=0.25 
即 Q@=R*S=[0.5 0.2 0.25 0.25]。 
根据 计算 结果 可 知 ,该 餐馆 综合 品质 为 很 好 。 
根据 模糊 关系 合成 的 计算 方式 可 知 ,模糊 关系 合成 不 满足 交换 律 。 对 于 例 7 中 ,ReS 有 
意义 ,而 SR 没有 意义 。 
设 RS(T) 及 U 分 别 为 XXY、YXZ 及 ZXW 中 的 模糊 关系 , 则 有 以 下 5 个 基本 性 质 。 
(1) 结合 律 : 如 果 SET, 则 有 ReSCR。eT 或 $:UCTeU。 
(2) 并 运算 上 的 弱 分 配 律 : ReCSUTSECR。S) U(S。T) 或 CSUT -US(S-U) UCT-UD) 。 
(3) 交 运 算 上 的 弱 分 配 律 : ReCSMTDSECR。s) 门 (ST) 或 (SnTUS(CS-D) 站 TD) 。 
(4) O.R=R。O 或 TR 一 R。T 一 RCO 为 零 矩 阵 , 工 为 单位 矩阵 ) 。 
(5) 若 RCR ,SCS: , 则 Ri。SiCR:。S:。 


5.4.3 ”模糊 关系 的 性 质 


定义 25: 设 R 是 XX 中 的 模糊 关系 。 若 对 VzEX, 都 有 mn(zyz) 王 1, 则 称 尽 为 具有 自 
反 性 的 模糊 关系 。 
对 应 于 自 反 关系 的 模糊 矩阵 的 对 角 元 素 为 1。 
定义 26: 设 REU(XXX),R" 是 R 的 转 置 。 即 R YEU(XXX), 并 且 满 足 JR(y,X)E 
AR(Cy,Z)， 其 中 (zy)EYXX。 
关系 的 转 置 有 以 下 性 质 : 
® (R')'=R 
® (RUQ)'=R'UQ" 或 (RNQ)'=R'NOQ” 
$ (RQ)'=0QT oR 或 (R")T= (QT™)" 
多 (R'),=(R)T 
定义 27; 设 REU(XXX), 若 R' 一 R, 则 称 R 为 对 称 的 模糊 关系 。 在 有 限 论 域 中 , 称 为 
对 称 模糊 给 阵 。 
例 8: 设 身 高 集合 X= 二 {150,155,160,165) ,体重 集合 Y= 二 {45,49. 5,54,58. 5) ,根据 国 
际 上 常用 的 人 的 体重 计算 公式 : 标准 体重 二 [身高 (cm) 一 100] X0.9(kg), 则 对 应 身高 “ 非 
标准 ”体重 时 ,可 采用 模糊 矩阵 表示 身高 .体重 与 标准 体重 之 间 的 关系 。 
1 5 Wa 0 
0.75 1 0.75 0.3 
0.3 075 1 ‘0.75 
0 Wa 0 1 
由 于 jr(1,1) 二 jr (2,2) 二 jr(3.,3) 二 yr (4,4) 二 1, 则 R 为 具有 自 反 性 的 模糊 关系 ; 由 
于 R" 二 R, 则 R 为 具有 对 称 性 的 模糊 关系 , 即 R 是 自 反 的 对 称 模糊 矩阵。 
定义 28: 设 REU(XXX), 即 R 是 XX 中 的 模糊 关系 。 若 R 满足 ReRCR, 则 称 R 为 传 
从 定义 可 见 , 传 递 性 关系 包含 着 它 与 它 自己 的 关系 合成 。 对 于 传递 性 关系 可 以 等 价 表 
示 为 ye (x,y)V (CCzyy)A 人 He(y,z))，VzyzEX。 
mh | 


R= 


0 0.2 0.6 0.8 
例 9: 设 R= : 则 
0 0 0.3 0.7 
0 0 0 0.4 
.1 Os Ga 了 


0 0.2 0.6 
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划 
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| 
根据 定义 ,ReRCR, 则 R 为 传递 的 模糊 关系 。 
定义 29: 设 尺 是 X 中 的 模糊 关系 , 若 RR 具有 自 反 性 和 对 称 性 , 则 R 称 为 模糊 相似 关 
系 。 若 尺 同 时 具有 自 反 性 、 对 称 性 和 传递 性 , 则 称 及 是 模糊 等 价 关 系 。 
利用 模糊 等 价 关 系 对 事物 进行 分 类 , 称 为 模糊 聚 类 分 析 。 


5.4.4 模糊 变换 


模糊 变换 是 指 给 定 两 个 集合 之 间 的 一 个 模糊 关系 , 据 此 将 一 个 集合 上 的 模糊 子 集 经 运 
算得 到 另 一 个 集合 上 的 模糊 子 集 的 过 程 。 
定义 30: 称 映射 下 上 :X->Y 为 从 XX 到 了 的 模糊 变换 。 模 糊 变 换 实 现 了 将 X 中 的 模糊 集 
变 为 了 上 的 模糊 集 , 实 际 上 实现 了 论 域 的 转换 。 
当 久 ,7 均 为 有 限 集 时 ,映射 下 :yx 一 jux, 就 是 模糊 变换 。 
定义 31: 给 定 一 个 模糊 变换 下 ;:X-=>Y, 若 存在 RCXXY, 使 得 VAEX, 有 
F(A)=A.REV (5-18) 
此 处 jx 三 V (jx(z)Apr(zs,y)),，YVyEY, 则 为 线性 模糊 变换 。 
例 10: 某 一 水 位 控制 系统 ,当前 水 位 的 模糊 集合 A 二 (0.6,0.3,0. 1), 水 位 与 阀门 开 度 
的 模糊 矩阵 为 
上 
R= 区 0.5 oa 
0.6 0.3 0.1 
则 在 当前 水 位 下 ,阀门 开 度 为 
让 入 训 让 褒 
= GO Oil GR 
0 8 0 亿 浊 
在 模糊 集合 论 中 还 有 一 个 重要 的 定义 , 即 扩张 原理 。 它 是 指 模糊 集合 A 经 过 映射 之 
后 , 记 为 f(A), 而 A 和 f(A) 的 相应 元 素 的 隶属 度 保持 不 变 , 也 就 是 模糊 集合 A 的 元 素 隶 属 
度 可 以 通过 映射 ,无 保留 地 传递 到 模糊 集合 (A) 的 相应 元 素 中 。 
定义 32: 设 有 映射 /:X—>Y 了 ,并且 A 是 XX 中 的 模糊 集合 , 记 和 A 在 f 下 的 像 为 1(A), 它 
是 Y 中 的 模糊 集合 ,并 且 具 有 如 下 来 属 度 函 数 


一 [0.2 0.3 0.6] 


VY tn FT 
LW (Y) = 4zE 广 CD (5-19) 
0， (y= 
即 若 和 A 一 外 十 位 十 … 十 各, 则 由 映射 /作用 之 后 有 f(A) ,f(A) 一 全 十 -全 一 十 … 十 
Wi A ts fxr) flx2) 
Lm 
Fa)” 


当 f 为 一 一 映射 时 ,f(A) 的 隶属 度 函 数 公式 可 简化 为 


(rata 
pr (y) -1 
0,» (= 


模式 识别 与 人 工 知 能 (基于 MATLAB) 


二 射 f:X>Y, 它 具 
1 XT2 TX3 


Xa 5 Te 


例 11: 设 A 


有 f(r)=y f(r) = yf (rT3)=y f(T) = ys f(rs)=y 及 f(r)=y, 则 f(y1)= 
{zi}, f(y)={xs ,zs rT)} ,f(y3)={xs ,zs}。 得 


pramly) = VY (0.1)=0.1 


人 


pr (ya) = V (0.3,0.4,0.7) 一 0.7 


{x2 vzz rz4) 
pr (ys) = V (0.5,0.2) 一 0.5 


《zsvz6) 


即 CA) 一 2 SS 
ys ys 


模糊 逻辑 及 模糊 推理 


模糊 集合 是 经 典 集合 的 真实 概括 ,经 典 集合 是 模糊 集合 的 特例 。 使 用 隶属 度 函 数 定义 

的 模糊 集合 称 为 模糊 逻辑 。 模 糊 集 合 中 的 隶属 度 函 数 用 于 鉴定 陈述 ”为 * 真 "的 程度 。 例 

如 ,体温 为 104 下 的 患者 隶属 于 “ 重 感冒 患者 "集合 的 程度 为 0.65。 任 一 体温 的 患者 隶属 于 
“ 重 感冒 患者 "集合 的 程度 可 用 图 5-15 所 示 的 隶属 度 函 数 图 表示 。 

1 


AD 


= 


96 100 104 108 
体温 PF 


图 5-15 “ 重 感冒 " 素 属 度 函数 曲线 


语言 变量 是 模糊 逻辑 系统 的 基本 构成 , 它 对 同样 背景 使 用 多 个 主观 分 类 进行 描述 。 以 
发 热 为 例 , 将 描述 发 热 的 程度 用 高 烧 (strong-fever) .发 热 (raised) 正常 (normal) 和 低烧 
(low)4 个 语言 变量 来 描述 。 图 5-16 展示 了 所 有 语言 变量 就 发热" 事件 的 隶属 度 函 数 。 


低烧 ”正常 ”发 热 高 烧 


u(x¥) 


已 
可 


T 
96 100 104 108 
体温 /°F 


图 5-16 所 有 语言 变量 就 "发 热 ? 事 件 的 隶属 度 函 数 曲线 


第 5 章 模糊 聚 类 分 析 


使 用 模糊 隶属 度 函 数 后 ,以 华氏 温度 测量 的 体温 可 以 转换 为 语言 描述 。 例 如 ,体温 为 
100 开 的 患者 将 可 确诊 为 基本 属于 发 烧 状态 ,并 有 轻微 的 高 烧 现 象 。 


5.5.1 模糊 逻辑 技术 


随 着 人 们 对 模糊 逻辑 理解 的 加 深 , 使 用 模糊 集合 的 方法 不 断 更 新 。 本 书 只 涉及 基于 规 
则 的 模糊 多 辑 技术 。 几 乎 所 有 的 近期 的 模糊 逻辑 应 用 都 是 基于 该 方法 。 这 里 简要 介绍 集 装 
箱 起 重 机 控制 实例 的 基于 规则 的 模糊 逻辑 系统 的 基本 技术 。 

集装箱 起 重 机 控制 系统 界面 如 图 5-17 所 示 。 


闻 cone on EE 


图 5-17 集装箱 起 重 机 控制 系统 


集装箱 起 重 机 用 于 装载 集装箱 到 船上 或 从 港口 的 船上 印 载 集装箱 。 使 用 连接 到 起 重 机 
头 上 的 软 电缆 吊 起 单个 集装箱 ,起 重 机 头 采 用 水 平移 动 方式 。 当 一 个 集装箱 被 提起 ,起 重 机 
头 开始 移动 ,此 时 集装箱 随 着 起 重 机 头 的 移动 和 惯性 力 的 作用 开始 晃动 。 在 运输 过 程 中 , 集 
装 箱 的 晃动 基本 不 会 影响 运输 过 程 ,但 晃动 的 集装箱 必须 稳定 后 才能 放下 。 

解决 这 个 问题 有 两 种 方法 。 第 一 种 方法 是 准确 定位 起 重 机 头 到 目标 位 置 上 方 ,接着 一 
直 等 待 集装箱 的 摆动 达到 规定 的 稳定 状态 。 当 然 ,摆动 的 集装箱 最 终 会 稳定 ,但 等 待 会 造成 
相当 多 时 间 的 浪费 。 由 于 成 本 原因 一 个 集装箱 船 需 要 在 最 短 时 间 内 被 装载 和 印 载 ,因此 第 
一 种 方法 不 符合 成 本 最 小 化 的 要 求 。 第 二 种 方法 就 是 提起 集装箱 ,然后 慢 慢 移动 它 , 致 使 集 
装 箱 不 发 生 晃动 ,但 这 一 方法 也 将 花费 大 量 的 时 间 。 

一 个 比较 折 中 的 方法 就 是 ,在 操作 过 程 中 使 用 附加 电缆 固定 集装箱 的 位 置 来 构建 集 装 
箱 起 重 机 。 但 这 个 方案 花费 较 高 ,很 少 有 起 重 机 利用 这 个 技术 。 

由 于 这 些 原因 ,大 多 数 集装箱 起 重 机 在 操作 员 的 指导 下 对 起 重 机 电动 机 采用 连续 速度 
控制 。 操 作 员 需 要 控制 晃动 的 同时 ,确保 集装箱 在 最 短 时 间 内 达到 目标 位 置 。 实 现 这 个 目 
标 , 对 于 操作 人 员 来 说 非常 不 容易 ,但 熟练 的 操作 员 能 够 做 到 。 为 了 降低 操作 的 难度 ,工程 
师 们 曾 尝试 采用 控制 策略 实现 自动 控制 ,如 线性 PID 控制 ,基于 模型 控制 和 模糊 逻辑 控制 。 

传统 的 PID( 比 例 -积分 -微分 ) 控 制 试验 未 能 成 功 ,因为 控制 任务 是 非 线 性 的 。 当 集 装 
箱 接近 目标 时 ,晃动 最 小 化 是 重要 的 ; 在 基于 模型 的 控制 试验 时 ,工程 师 推 导出 描述 起 重 机 


机 械 行为 的 数学 模型 为 五 阶 微分 方程 式 , 这 在 理论 上 说 明基 于 模型 的 控制 策略 是 可 行 的 ,但 
试验 却 也 不 成 功 。 造 成 这 一 策略 不 成 功 的 原因 如 下 : 

(1) 起 重 机 电动 机 行为 不 是 模型 中 假设 的 那样 线性 。 

(2) 起 重 机 头 移动 时 有 摩擦 。 

(3) 在 模型 中 未 包含 干扰 量 ,如 风 的 干扰 。 

鉴于 以 上 控制 策略 的 不 足 , 引 入 了 模糊 逻辑 的 语言 控制 策略 。 


5.5.2 语言 控制 策略 


在 人 为 控制 中 ,操作 员 并 非 按照 微分 方程 式 进行 控制 ,甚至 无 须 使 用 基于 模型 的 控制 策 
略 中 的 电缆 长 度 传感器 。 一 旦 操作 员 提 起 集装箱 ,首先 使 用 中 功率 电动 机 ,以 便 查看 集装箱 
如 何 晃动 。 然 后 依据 晃动 的 程度 ,调整 电动 机 功率 使 集装箱 在 起 重 机 头 后 面 一 点 ,这 时 系统 
将 获得 最 大 的 传输 速度 ,并且 使 集装箱 的 晃动 最 小 。 

当 接 近 目 标 位 置 时 ,操作 员 减 小 电动 机 功率 或 使 用 负电 压 刹 车 。 当 起 重 机 很 接近 目标 
且 电 压 进 一 步 减 小 或 反 向 时 ,使 集装箱 的 位 置 稍微 超 过 起 重 机 头 , 直 到 集装箱 几乎 达到 目标 
位 置 。 最 终 , 电 动机 功率 增加 以 致 起 重 机 头 超过 目标 位 置 且 摆动 为 0。 在 整个 操作 过 程 中 ， 
不 需要 微分 方程 式 , 系统 干扰 或 非 线 性 通过 操作 员 对 集装箱 位 置 的 观察 ,依据 经 验 进 行 
补偿 。 

在 对 操作 员 操 作 过 程 的 分 析 中 ,使 用 了 一 些 经 验 规 则 描述 控制 策略 。 

(1) 在 起 动 时 使 用 中 功率 电动 机 ,以 便 观 察 集 装 箱 的 晃动 情况 。 

(2) 如 果 已 经 起 动 且 仍 然 远离 目标 ,增加 电动 机 功率 ,以 使 集装箱 到 达 起 重 机 头 后 面 
一 点 。 
(3) 如 果 接 近 目 标 , 减 小 速度 以 致 集装箱 在 起 重 机 头 前 面 一 点 。 

(4) 当 集 装 箱 超过 目标 ,并 且 晃 动 为 0 时 ,停止 电动 机 。 

用 上 距离 传感器 测量 起 重 机 头 的 位 置 , 用 相 角 传感器 测量 集装箱 晃动 相 角 ,并 将 测量 结果 
应 用 到 自动 控制 起 重 机 中 。 使 用 测量 结果 描述 起 重 机 的 当前 状况 ,并 采用 “如 果 一 一 则 ” 格 
式 描 述 经 验 控制 规则 。 

(1) 如 果 起 重 机 头 与 目标 位 置 之 间 的 距离 较 远 ,并 且 集 装 箱 与 垂直 方向 的 相 角 等 于 0， 
则 使 用 中 功率 电动 机 。 

(2) 如 果 起 重 机 头 与 目标 位 置 之 间 的 距离 较 远 ,并 且 集 装 箱 与 垂直 方向 的 相 角 小 于 0， 
则 使 用 大 功率 电动 机 。 

(3) 如 果 起 重 机 头 与 目标 位 置 之 间 的 距离 较 近 ,并 且 集 装 箱 与 垂直 方向 的 相 角 小 于 0， 
则 使 用 中 功率 电动 机 。 

(4) 如 果 起 重 机 头 与 目标 位 置 之 间 的 距离 适中 ,并 且 集 装 箱 与 垂直 方向 的 相 角 小 于 0， 
则 使 用 中 功率 电动 机 。 

(5) 如 果 起 重 机 头 到 达 目 标 位 置 ,并 且 集 装 箱 与 垂直 方向 的 相 角 等 于 0, 则 停止 电动 机 。 

从 经 验 控制 规则 可 知 ,采用 “如 果 一 一 则 ”格式 描述 经 验 控制 规则 的 通用 式 为 

如 果 二 状态 二 则 二 动作 二 
就 集装箱 起 重 机 而 言 , 状 态 由 两 个 条 件 确 定 : 第 一 个 条 件 描述 起 重 机 头 与 目标 位 置 之 


间 的 距离 值 ; 第 二 个 条 件 描 述 集装箱 与 垂直 方向 的 相 角 。 当 两 个 条 件 同 时 满足 相应 的 状态 
时 ,系统 给 出 控制 策略 。 
在 设置 规则 时 ,使 用 到 语言 变量 。 


5.5.3 ”模糊 语言 变量 


带 有 模糊 性 的 语言 称 为 模糊 语言 ,如 高 . 矮 、 胖 、 瘦 ,轻重 、 缓 、 急 等 。 此 外 ,在 自然 语言 
中 有 一 些 词 可 以 表达 语气 的 肯定 程度 ,如 “非常 * 狠 ”“ 极 ”等 ; 也 有 一 类 词 ,如 大概“ 近似 
于 ”等 ,将 这 些 词 置 于 某 个 词 前 面 ,如 年 轻 , 则 使 该 词 意 义 变 为 模糊 ,如 很 年 轻 ; 还 有 些 词 , 如 
“偏向 “倾向 于 ”等 可 使 词义 由 模糊 变 为 肯定 ,如 倾向 于 短 等 。 在 模糊 控制 中 ,常见 的 模糊 语 
言 还 有 正大 、 正 中 、 正 小 、 零 、 负 小 、 负 中 、 负 大 等 。 

人 类 自然 语言 具有 模糊 性 ,而 通常 的 计算 机 语言 有 严格 的 语法 规则 和 语义 ,不 存在 任何 
的 模糊 性 和 歧义 , 即 计 算 机 对 模糊 性 缺乏 识别 和 判断 能 力 。 为 了 实现 用 自然 语言 跟 计算 机 
进行 直接 对 话 , 就 必须 把 人 类 的 语言 和 思维 过 程 提 人 炼 成 数学 模型 。 

语言 变量 是 指 以 自然 或 人 工 语言 的 词 .词组 或 句子 作为 值 的 变量 。 如 模糊 控制 中 的 “ 偏 
差 “ 偏 差 变 化 率 ” 等 ,并 且 语 言 变 量 的 取 值 通常 不 是 数 , 而 是 用 模糊 语言 表示 的 模糊 集合 ,如 
“偏差 很 大 “偏差 大 “偏差 适中 “偏差 小 ”和 “偏差 较 小 ”。 

定义 33: 一 个 语言 变量 可 定义 为 多 元 组 (Tt，,T(z),U,G,M)。 其 中 ,x 为 变量 名 ; T(x) 
为 工 的 词 集 , 即 语言 值 名 称 的 集合 ; U 为 论 域 ; G 是 产生 语言 值 名 称 的 语法 规则 ; M 是 与 各 
语言 值 含义 有 关 的 语法 规则 。 语 言 变量 的 每 个 语言 值 对 应 一 个 定义 在 论 域 U 中 的 模糊 数 。 
语言 变量 基本 词 集 把 模糊 概念 与 精确 值 联系 起 来 ,实现 对 定性 概念 的 定量 化 及 定量 数据 的 
定性 模糊 化 。 

依然 以 偏差 为 例 , 则 TT( 偏 差 )= {很 大 、 大 、 适 中 、 小 、 较 小 }。 

上 述 每 个 模糊 语言 (如 大 、 适 中 等 ) 是 定义 在 论 域 U 上 的 一 个 模糊 集合 。 设 论 域 U= 
[0,5], 则 可 大 致 认为 小 于 1 为 小 ,2 左右 为 适中 ,大 于 3 以 上 为 大 。 

语法 规则 是 根据 原子 单词 来 生成 的 语言 值 集 合 T(z) 中 各 个 合成 词 请 的 请 法 规则 。 

(1) 前 缀 限制 词 互 方式 ,在 原子 单词 C 之 前 引入 算 子 日 概念 ,形成 合成 语言 词 T= 
HC。 例 如,“ 极 “很 “相当 ”等 都 可 以 作为 算 子 来 处 理 。 算 子 有 很 多 种 ,经 常 使 用 的 有 诸 气 
算 子 (* 极 “很 ”) ,散漫 化 算 子 (* 略 “ 微 ”) 概率 算 子 (“大 概 …“ 将 近 ”) 判定 化 算 子 (“倾向 于 ” 
“多 半 是 ”) 等 。 

(2) 加 连接 词 “ 或 * 且 ”和 否定 词 “ 非 ”, 如 “ 非 大 于 ”等 。 

(3) 混合 式 , 即 上 述 两 种 合成 方式 重复 或 交叉 使 用 ,形成 各 种 复杂 的 语言 值 。 

以 偏差 为 例 的 语言 变量 的 结构 图 如 图 5-18 所 示 。 


5.5.4 模糊 命题 与 模糊 条 件 语 句 


人 们 把 具有 模糊 概念 的 陈述 句 称 为 模糊 命题 ,如 “天 气 很 热 "。 模 糊 命 题 的 标志 符 通常 
用 大 写字 母 P.Q、R 等 下 面 加 波浪 一 表示 。 
表征 模糊 命题 真实 程度 的 量 叫 作 模糊 命题 的 真 值 , 记 作 


1 


bb 


图 5-18 以 偏差 为 例 的 语言 变量 的 结构 图 


VCP) = xz，0 入 xz 入 1 (5-20) 
当 VY(P) 一 1 时 ,表示 P 陈 述 的 信息 完全 真 ; 当 V(P) 二 0 时 ,表示 了 陈述 的 信息 完全 假 ; 
而 当 VCP) 的 值 介 于 0 一 1 时 ,表示 陈述 的 信息 不 完全 真 ,也 不 完全 假 ,并 且 VC(P) 的 值 越 
接近 于 1 ,表示 己 陈述 的 信息 越 真实 。 模 糊 命 题 比 二 值 迎 辑 中 的 命题 更 能 符合 人 脑 的 思维 方 
式 , 反 映 了 真 或 假 的 程度 。 
模糊 命题 的 一 般 形 式 为 P:“u 是 A”( 或 uis A)。 其 中 ,w 是 个 体 变 元 , 它 属于 论 域 U， 
即 wEU; A 是 某 个 模糊 概念 所 对 应 的 模糊 集合 。 模 糊 命 题 的 真 值 由 该 变 元 对 模糊 集合 的 
隶属 程度 表示 ,定义 为 
V(P) = palu) Co 
在 模糊 命题 中 ,“is A” 部 分 是 表示 一 个 个 体 模糊 性 质 或 多 个 个 体 之 间 的 模糊 关系 的 部 
分 , 称 为 模糊 谓词 。 和 二 值 逻 辑 一 样 ,使 用 析 取 、 合 取 、 取 非 、 蕴 涵 及 等 价 运算 可 构成 复合 模 
糊 命题 。 
设 有 模糊 命题 P: 偏差 大 ; Q: 偏差 变化 率 小 , 则 : 
多 析 取 : 表示 两 者 间 的 关系 为 “或 ”, 记 为 PUQ, 其 真 值 为 VCP)VV(Q)== pa(p)V pa(g)， 
意 为 偏差 大 或 偏差 变化 率 小 , 即 两 者 满足 其 一 即 可 。 
合 取 : 表示 两 者 间 的 关系 为 “上 且 ”, 记 为 PQ, 其 真 值 为 V(P)AV(Q)==pa(p) 人 palg)， 
意 为 偏差 大 ,并 且 偏差 变化 率 小 , 即 要 求 两 者 同时 满足 。 
多 取 非 : 表示 两 者 间 的 关系 为 “ 非 ”, 记 为 P°, 其 真 值 为 1 一 V(P) 二 1 一 ja(p), 意 为 偏 
差 不 大 。 
4 蕴涵 : 表示 两 者 间 的 关系 为 “ 若 …… 则 ……”, 记 为 V(P)>V(Q)。 
4 等 价 : 表示 两 者 间 的 关系 为 “互相 蕴含 ”, 记 为 V(P)%V(Q)。 


从 真 值 表达 式 可 知 , 模 糊 命题 真 值 之 间 的 运算 .也 就 是 其 相应 隶属 度 函 数 之 间 的 运算 。 

在 使 用 模糊 策略 时 ,会 用 到 一 系列 模糊 控制 规则 ,如 “如果 起 重 机 头 与 目标 位 置 之 间 的 
距离 较 远 ,并且 集 装 箱 与 垂直 方向 的 相 角 等 于 0, 则 使 用 中 等 功率 电动 机 ”, 或 者 “如 果 偏 差 
较 大 ,而 偏差 变化 率 较 小 , 则 阀门 半 开 ”等 。 其 中 "* 远 交 中 等 交大 交 小 交 半 开 ? 等 词 均 为 模糊 
词 , 这 些 带 模糊 词 的 条 件 语句 就 是 模糊 条 件 语句 。 

在 模糊 控制 中 ,经 常用 到 3 种 条 件 语 句 。 

(1) 条 件 then 语句 ,其 简 记 形式 为 f A then B。 其 中 if A 部 分 称 为 前 件 或 条 件 部 
分 ,then B 部 分 称 为 后 件 或 结论 部 分 。 

例句 : 如 果 水 位 达到 要 求 , 则 关闭 进 水 阀门 。 

(2) Hf 条 件 then 语句 1 else 语句 2, 其 简 记 形式 为 if A then B else C。 

例句 : 如 果 芋 果 比 橘子 贵 , 则 买 橘子 ; 否则 , 买 苹果 。 

(3) 开 条 件 1 and 条 件 2 then 语句 ,其 简 记 形 式 为 if A and B then C。 

例句 : 如 果 他 跑 得 快 ,并 且 球 技 好 , 则 让 他 当前 锋 。 


5.5.5 判断 与 推理 


判断 和 推理 是 思维 形式 的 一 种 。 判 断 是 概念 与 概念 的 联合 ,而 推理 则 是 判断 与 判断 的 
联合 。 推 理 根据 一 定 的 原则 ,从 一 个 或 几 个 已 知 判 断 引 出 一 个 新 判断 。 一 般 情况 下 ,推理 包 
含 两 个 部 分 的 判断 : 一 部 分 是 已 知 的 判断 ,作为 推理 的 出 发 点 , 叫 作 前 提 或 前 件 ; 由 前 提 所 
推出 的 新 判断 ,叫做 结论 或 后 件 。 

只 有 一 个 前 提 的 推理 称 为 直接 推理 ,由 两 个 或 两 个 以 上 前 提 的 推理 称 为 间接 推理 。 间 
接 推 理 依据 认识 的 方向 ,又 可 分 为 演绎 推理 .归纳 推理 和 类 比 推理 等 。 

演绎 推理 是 前 提 与 结论 之 间 有 蕴涵 关系 的 推理 。 演 绎 推理 中 最 常用 的 形式 是 假 言 推 
理 , 有 肯定 式 推理 和 否定 式 推理 两 类 。 


肯定 式 : 
大 前 提 ( 规 则 ) 车 zx 是 A, 则 y 是 B 
小 前 提 ( 已 知 ) zx 是 A 
结论 y 是 B 
否定 式 : 
大 前 提 ( 规 则 ) 若 工 是 A, 则 > 是 也 
小 前 提 ( 已 知 ) y 不 是 B 
结论 Zz 不 是 A 
以 上 就 是 “三 段 论 "推理 模式 ,用 数学 形式 表达 如 下 : 
A—B A—B 
A B° 
B A° 
肯定 式 否定 式 


“三 段 论 ?给 出 了 在 大 前 提 A 一 B 之 下 , 若 小 前 提 是 A, 则 可 推出 结论 为 B。 然 而 , 当 小 


前 提 不 是 严格 的 A ,而 是 在 某 种 程度 上 接近 于 A, 记 为 A' ,此 时 结论 应 该 是 什么 呢 ?“ 三 段 
论 ” 没 能 给 出 答案 , 即 三 段 论 对 模糊 性 问题 的 推理 无 能 为 力 , 此 时 需要 使 用 模糊 推理 方法 。 


5.5.6 模糊 推理 


模糊 推理 又 称 模糊 逻辑 推理 ,是 应 用 模糊 关系 来 表示 模糊 条 件 句 ,将 推理 的 判断 过 程 转 
化 为 对 隶属 度 的 合成 及 演算 过 程 。 即 已 知 模糊 命题 (包括 大 前 提 和 小 前 提 ), 推 出 新 的 模糊 
命题 作为 结论 的 过 程 。 模 糊 推理 即 近似 推理 ,这 两 个 术语 不 加 区 分 ,可 以 混用 。 

L. A. Zadeh 在 1973 年 对 于 模糊 命题 “车 A 则 B”, 利 用 模糊 关系 的 合成 运算 提出 了 一 
种 近似 推理 的 方法 , 称 为 “关系 合成 推理 法 ”, 简 称 CRI 法 ,是 实际 控制 中 应 用 较 广 的 一 种 模 
糊 推理 算法 。 其 原理 表述 为 : 用 一 个 模糊 集合 表述 大 前 提 中 全 部 模糊 条 件 语句 前 件 的 基础 
变量 和 后 件 的 基础 变量 间 的 关系 ; 用 一 个 模糊 集合 表述 小 前 提 ; 进而 用 基于 模糊 关系 的 模 
糊 变 换 运 算 给 出 推理 结果 。 

常用 的 推理 方法 有 Zadeh 的 推理 方法 `Mamdani 推理 方法 、 多 输入 模糊 推理 和 多 输入 
多 规则 推理 。 


1. Zadeh 的 推理 方法 


设 A 是 X 上 的 模糊 集合 ,B 是 Y 上 的 模糊 集合 ,模糊 蕴涵 关系 “ 若 A 则 B”, 用 A 一 B 表 
示 。Zadeh 把 它 定义 成 XXY 的 模糊 关系 , 即 
R=A—>B= (AXB)U (AxXY) (5-22) 
其 隶属 度 函 数 式 为 R(x,y)==[A(x)AB(z)]V (1 一 A(x))。 
给 定 一 个 模糊 关系 R, 就 决定 了 一 个 模糊 变换 ,利用 模糊 关系 的 合成 有 如 下 推理 规则 。 
(1) 已 知 模糊 蕴涵 关系 A 一 B 的 模糊 关系 尺 , 对 于 给 定 的 A',A’EX, 则 可 推出 结论 B'， 
B'EY,B' 二 A'。R。 即 当 Y 为 有 限 论 域 时 ， 
B'(y)=V {A’(zx) A [A(z) A B(y) V (1 —A(z)))} (5-23) 
(2) 已 知 模糊 蕴涵 关系 A 一 B 的 模糊 关系 尺 , 对 于 给 定 的 B',B'EY, 则 可 推出 结论 A'， 
A’EX,A’= 二 ReB'。 即 当 义 为 有 限 论 域 时 ， 
A’‘(z) =V {[A(zx) A B(y) V (1—A(z))] A B’'(y)} (5-24) 


2. Mamdani 推理 方法 


Mamdani 的 推理 方法 本 质 上 是 一 种 CRI 法 ,只 是 Mamdani 把 模糊 蕴涵 关系 A 一 B 用 
A 和 B 的 笛 卡 儿 积 表示 , 即 R=A->B 二 AXB, 也 可 写 为 R(x,y)= 二 A(zx)XB(y)。 
已 知 模糊 蕴涵 关系 A 一 B 的 模糊 关系 尺 ,对 于 给 定 的 A',A’ EX, 则 可 推出 结论 B'， 
B'EY,B' 二 A'。*R。 即 当 Y 为 有 限 论 域 时 ， 
B'(y) =V {A’(zx) A [A(zx) A BCy)]) (5-25) 
或 者 使 用 隶属 度 函 数 表示 为 
pag(y) 一 V {pa (rx) 人 [pyar) 人 pa(Cy)]) 
一 V {pa(z) 人 paCz)} 人 ApaCy) 
=a AM ps(y) (5-26) 


其 中 ,ae= V{wuw (xz) A pa (zx)), 是 模糊 集 A' 与 A 交集 的 高 度 ,如 图 5-19 所 示 。 也 可 表示 为 
a 二 H(A' 门 A),a 可 以 看 成 是 A' 对 A 的 适 配 程度 。 


ul¥), A 4 A—B Jlx, 
1.0 L(x) 


1.0 


O 
推理 输入 ; X 是 4' 4 推理 : 7 是 及 
图 5-19 a 二 V {pw (x)Apa (7z)}) 的 图 示 


根据 Mamdani 推理 方法 ,结论 可 用 此 适 配 度 与 模糊 集合 进行 模糊 与 , 即 取 小 运算 Cmin) 
而 得 到 。 在 图 形 上 就 是 用 基准 去 切割 B, 便 可 得 到 推论 结果 ,所 以 这 种 方法 经 常 又 形象 地 被 
称 为 前 项 法 。 

已 知 模糊 蕴涵 关系 A 一 B 的 模糊 关系 尺 ,对 于 给 定 的 B', B'EY, 则 可 推出 结论 A'， 
A'EX,A' 二 ReB', 其 中 *。” 表 示 合 成 运算 。 即 当 X 为 有 限 论 域 时 ,A' (xz) 二 V {[A(x) 人 
B(y)] 人 B'(y)} ,或 者 使 用 隶属 度 函数 表示 为 

ps’ =V {Lua (zx) A BC)] A B'(y)} (5-27) 

例 12: 设 AEX,BEY,A== 数 量 多 ,B= 质量 大 。 论 域 X( 数 量 )= 王 (0,2,4,6,8,10}， 


Oi Oi Hs 0 加 一 痊 
Ha(z) 一 亲 十 末 十 全 十 全 十 本 十 而 ,YY( 质 量 ) 一 (0,1,2,3,4,5,6,7) ,pa(y) 一 站 


0,1 02 0.4 06 .0.8 09 ， 
Fe 
5 6 


二 + 二 十 忆 六 “车 A 则 B”( 车 数量 多 , 则 质量 大 ) 为 推论 的 大 前 


提 , 给 出 模糊 关系 一 A 一 B。 使 用 Mamdani 推理 方法 推导 出 给 定 A',pw (z) 一 人 十 2 十 


二 十 洁 十 ,在 “数量 较 多 ”情况 下 的 结论 B'(“ 质 量 较 大 ”)。 


由 式 ae= V {jw (x) Apa(z)), 先 求 出 A' 对 A 的 适 配 度 为 


WAV.L NAN 太 站 潍 他 基站 人 邹 下 工 ， 二 春季 洛 
a v | 0 Be 8 
而 5 机 计 1 信念 1 全 轩 了 和 裕 二 怒 妆 
a 
一 0.9 


然后 用 a 切割 B 的 隶属 度 函 数 : 
LB (y=a 人 ma(Cy) 


站 本 于 全 名 重生) 站 看 |， 耻 曾 站 起 入) 二 

09A (6 多 有 7) 
久久 和 站 加 本 刘 ,站 并 

09A (5 1 2 a 7) 

站 ,站 重光 荔 半生， 起 冰 站 感人 生 攻 你 各 

Ta a 


3. 多 输入 模糊 推理 方法 


已 知 推 理 大 前 提 的 条 件 为 “if A and B then C”,AEF(x),BEF(y),CEF(z) ,模糊 蕴 
涵 关 系 为 


R=AXBxXxC= (AXB)—C (5-28) 
或 
R(r,y,z) = A(x) A B(y) A C(z) 
当 已 知 输入 A'、B', 小 前 提 为 A' 且 B', 则 可 推出 C' 
C= KBR (5-29) 
其 中 ,A’=F(zx),B'=F(y),C = 二 F(z)。 即 
GC = (A’XB).。 [Ax B=C0] (5-30) 
例 13: 以 模糊 自动 洗衣 机 为 例 ,已 知 泥 污 量 适 中 为 A,pa(z) 二 十 计 十 ,油脂 量 


适中 为 Bps(3) 一 汪 十 去 十 时 ,洗涤 时 间 适中 为 Cve(s) 一 号 2 十 言 十 o 


已 知 泥 污 量 多 为 4 px (2 一 时 -十 号 5 十 号 ,油脂 量 多 为 B pr(y) 一 


求 泥 污 量 大 且 油 脂 量 多 的 情况 下 ,洗涤 时 间 长 C 。 
由 于 R=AXBXC= (AXB) 一 C, 则 
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由 于 C 一 (4'XB')。RR, 令 R: 一 A'XB’, 则 
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把 Rs 写成 行 向 量 的 形式 , 即 
RD I Ol Ml 06 06 WL 007 0 


R: = 


则 
c= (td KB R= Rr 
TO 人 及 区 2 
0.3 0.3 0.3 
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或 
Qi O06 ;OF 
i 
用 图 形 方式 来 说 明 两 输入 推理 法 过 程 , 则 有 : 
大 前 提 ( 规 则 ) 若 A 且 B, 则 C 
小 前 提 ( 已 知 ) 车 A' 且 B' 
结论 C’=(A’XxB)-.[(AXB)—>C] 


其 中 ,AEF(zx),BEF(y),CE F(z)。 
对 于 多 维 模糊 条 件 语句 R: if A and B then C, 可 分 解 为 R': if A then C, 并 且 R”: ifB 
then C, 则 由 尺 作 近 似 推理 的 结论 C' 等 于 R' 和 R" 的 “ 交 ” 运 算 ,C' 二 RA 人 R”, 即 
C=A :ss(AXCNB :BXC) 
其 隶属 度 函 数 为 
pc (z)= V. {pa (x) A Lpalz) A pelz)]} NN V, {p(y) A Lua(Cy) A pec)])} 


一 V {px) A palz)} ApcGz) NV (ug(Cy) A paly)} A pclz) 
ey 


zEX 
一 (aa M pc(z)) f) (ap 人 Ac(Cz)) 
= (aa 人 as) 人 pc(z) 
这 在 Mamdani 推理 削 顶 法 中 的 几何 意义 是 , 像 单 输入 情况 一 样 ,分 别 求 出 A 对 A、B- 
对 B 的 隶属 度 aa 和 aa 并 取 这 两 个 之 中 小 的 一 个 值 作为 总 的 模糊 推理 前 件 的 隶属 度 , 再 以 
此 为 基准 去 切割 推理 后 件 的 隶属 度 函数 , 便 得 到 结论 C” ,推理 过 程 如 图 5-20 所 示 。 
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输入 2 


图 5-20 二 维 输入 Mamdani 推理 过 程 


4. 多 输入 多 规则 推理 方法 


以 两 输入 的 多 规则 为 例 ,其 形式 为 : 
若 A; 且 Bi , 则 Ci, 否则 


大 前 提 ( 规 则 ) 若 A 上 且 Bs, 则 Cs, 否则 
小 前 提 ( 已 知 ) 若 A, 且 B,, 则 C, ,否则 
车 A' 且 BB 
结论 C 
其 中 ,A; 和 A'、B; 和 B'、C; 和 C' 分 别 是 不 同 论 域 X、Y、2Z 的 模糊 集合 ,“ 否 则 ”表示 “或 ” 运 
算 , 可 写 为 并 集 形式 


C= (A’ XB). {L(A XB)—> CU U LA,xXB,)—C,]) (5-31) 
其 中 ,Ct=(A’XB”)e[(A;XB;)>Ci]=[A’s:(A;—>C)JNLB’.(B;>C)],i=1,2,°,n。 
其 隶属 度 函 数 为 
pez)= VV {ps C7) A Lpa Cz) AM pc, 2} NV {pa Cy) A La Cy) AM pc, C2)])} 
zxEX yEY 
= V [ar Cx) A pa CT)] A pc) NV Les Cy) MN pn, 3)] A pc, <) 
zxEX y€EY 


= (aa, A pe, 2)) NN as, A pe (2)) 


一 (os Man) Npclz)) i=1,2, ne (5-32) 
如 果 有 两 条 二 维 输入 规则 , 则 得 到 两 个 结论 
Ri:pci(Z) 一 aa 人 am NM pc (2) (5-33) 
Ra :pc, (2Z) 一 aa，A am A pc, (2) (5-34) 
则 
C=CU Cs (5-35) 


即 分 别 从 不 同 的 规则 得 到 两 个 结论 ,再 对 所 有 的 结论 进行 并 运算 , 便 得 到 总 的 推理 结论 ,其 


推理 过 程 可 用 图 5-21 来 表示 。 


(x) 
4104 4 4 


ac=min(@ ,08) 一 一 


ac.=min(a ,0p,) -一 


Qp, | 


x 
图 5-21 两 条 二 维 输入 规则 的 Mamdani 推理 过 程 
对 于 多 输入 多 规则 的 模糊 推理 ,可 依据 先前 提 , 对 大 前 提 中 每 条 模糊 条 件 语句 分 别 进行 
推理 ,并 将 其 结果 综合 成 最 终 推理 结果 的 模糊 推理 方法 , 即 
pc (2) 一 V {pa Cz) A Lea Cz) A pe NV {pa Cy) A Lys Cy) A pc, (2)]} 
y€Y 


xEX 


(5-36) 
可 改写 为 
一 《5-377 


后 数据 聚 类 一 一 模糊 聚 类 


5.6.1 模糊 聚 类 的 应 用 青 景 


模式 识别 是 一 门 研究 对 象 描述 和 分 类 方法 的 学 科 。 但 在 实际 应 用 中 ,由 于 数据 分 布 性 
质 不 好 ,致使 模式 分 类 时 无 法 精确 地 定义 “规律 或 “结构 ”, 而 “模糊 ”的 性 质 对 解决 该 问题 提 


C768)、 模式 识别 与 人 工 智能 (基于 MATLAB) 


供 了 思路 。 


5.6.2 基于 MATLAB 的 GUI 工具 的 模糊 算法 构建 一 一 数据 模糊 化 


首先 对 表 1-1 给 定 的 数据 进行 分 析 。 很 明显 ,这 是 一 个 3 输入 1 输出 系统 ,3 个 输入 变 


量 分 别 为 A.B`C。 分 别 对 3 个 输入 变量 确定 各 自 的 输入 一 输出 关系 ,如 表 5-4 所 示 。 
表 5-4 输入 与 输出 关系 表 


4 c 输 出 
864. 45 一 1449. 58 1641. 58 一 2031. 66 2665. 9 一 3405. 12 
2063. 54 一 2949. 16 2557. 04 一 3340. 14 5. 62 一 1984. 98 
1571.17 一 1845. 59 1575.78 一 1918. 81 1514. 98 一 2396 
104. 8 一 499. 85 3059. 54 一 377. 95 2002. 33 一 2462. 9 
1. 输入 模糊 化 


为 了 更 为 明确 地 观察 输入 和 输出 的 关系 ,将 给 定 的 数据 关系 利用 MATLAB 工具 转换 
为 图 形 关系 ,从 而 得 出 关系 图 ,然后 对 A、B.\C 三 个 变量 用 模糊 化 的 语言 进行 描述 。 
利用 MATLAB 夯 出 变量 A 与 输出 的 关系 图 ,程序 代码 如 下 : 


data = [1739.94 
373.3 
1756.77 
864.45 
222.85 
877.88 
1803.58 
2352.12 
401.3 
363.34 
DIL ET 
104.8 
499.85 
2297.28 
2092.62 
1418.79 
1845.59 
2205.36 
2949.16 
1692.62 
1680.67 
2802.88 
172.78 
2063.54 
1449.58 
1651.52 


1675. 
3087. 


1652 


1647. 
3059 . 
2031. 
1583. 
2557 
3259. 
3477. 
731. 
3389. 
3305. 
3340. 
SHE 
了 77 
9185 
3243. 
3244. 
1867. 
是 555 
3017. 
3084. 
3199: 


15 
05 


31 
54 
66 
2 
04 
94 
95 
04 
83 
25 
14 
2Y 
89 


76 


641.58 


1713: 


28 


2395. 
2429. 
1514. 
2665. 
2002. 
3071. 
2163. 
1411. 
2150. 
2462. 
L735. 
2421. 
2196. 


963 
47 4 
98 3 
bl 
33 4 
18 1 
05 3 
532 
98 4 
86 4 
33,3 
83 4 
22 4 


535.62 2 
584.32 2 


2772. 
2226. 
1202. 


是 
493 
692 


662.42 2 


2108. 
1725. 
1984. 
2328. 
1257. 
3405. 
1570. 


yy 人 | 
3 
982 
654 
区 本 过 
4 
38 3 


341.59 3076.62 2438.63 4 
291.02 3095.68 2088.95 4 
237.63 3077.78 2251.96 4 
]; 
stem(data( :,1), data( :,4),' x ', 'r'); (绘制 输入 输出 的 二 维 杆 图 ) 
title(' 数 据 A 与 输出 类 型 的 关系 图 '); 
xlabel( ' 数 据 A'); 
Ylabel( ' 输 出 分 类 '); 


运行 程序 ,得 到 如 图 5-22 所 示 的 数据 A 与 输出 类 型 的 关系 图 。 


文 ffF) 杞 最 (日 | 亚 看 (V) | 竺 入 由 工具 (1 点 而 (D) 铸 口 (WW) 帮助 (H) 
DRN-B OI a 


数据 A 与 输出 类 型 的 关系 图 


图 5-22 数据 A 与 输出 类 型 的 关系 图 


从 输入 和 输出 的 关系 图 中 可 以 看 出 ,可 将 A 模糊 化 为 四 种 状态 ,分 别 为 小 、 偏 小 、 偏 大 、 
大 ,从 而 完成 对 输入 A 的 模糊 化 。 
同 理 ,利用 MATLAB 画 出 变量 也, 变量 C 与 输出 的 关系 图 ,程序 代码 如 下 : 


data = [1739.94 1675.15 2395.96 3 
373.3 3087.05 2429.47 4 
1756.77 1652 1514.98 3 
864.45 1647.31 2665.9 1 
222.85 3059.54 2002.33 4 
877.88 ”2031.66 3071.18 1 
1803.58 1583.12 2163.05 3 
2352.12 2557.04 1411.53 2 
401.3 3259.94 2150.98 4 


363.34 3477.95 2462.86 4 


359741- 
104.8 


7 T1731.04 1735:333 
3389.83 2421.83 4 


499.85 ”3305.75 2196.22 4 


2297. 
2092. 
1418. 
1845. 
2205. 
2949. 
1692. 
1680. 
2802. 


28 3340.14 535.62 2 
62 3177.21 584.32 2 
39 1775:89 2772.:931 
59 1918.81 2226.493 
36 3243.74 1202.692 
16 3244.44 662.422 
62 1867.5 2108.973 
G7 1575578 1725313 
88 3017.11 1984.982 


172.78 3084.49 2328.65 4 


2063. 
1449. 
1651. 


54 3199.76 1257.212 
58 1641.58 3405.121 
52 1713;28 1570.38'3 


341.59 3076.62 2438.63 4 
291.02 3095.68 2088.954 
237.63 3077.78 2251.964 


subplot(1,2,1); “(生成 1*2 个 子 图 ,当前 激活 第 一 个 子 图 ) 
stem(data(:,2), data( :, 4), 'g', 's'); 

title(' 数 据 B 与 输出 类 型 的 关系 图 '); 

xlabel( ' 数 据 B'); 

ylabel( ' 输 出 分 类 '); 

subplot(1,2,2); 

stem(data( :,3),data( :, 4), 'b', '0'); 

title(' 数 据 C 与 输出 类 型 的 关系 图 '); 

xlabel( ' 数 据 C'); 

ylabel( ' 输 出 分 类 '); 


运行 程序 后 ,得 到 的 关系 图 如 图 5-23 所 示 。 


(昌吉 看 需 和 工具 (T 桨 面 (D) 


GEFEEJIUERSSITFELCTLIEICL 而 


数据 B 与 输出 类 型 的 关系 图 数据 与 输出 入 型 的 关系 图 


5-23 变量 B.C 与 输出 类 型 的 关系 图 
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从 图 5-23 中 可 以 看 出 ,输入 B 和 输出 的 关系 不 是 非常 明显 ,在 这 里 试 将 B 模糊 化 为 
小 .中 \ 大 三 种 状态 ,从 而 完成 对 输入 B 的 模糊 化 ; 而 输入 C 和 输出 的 关系 相对 明朗 ,在 此 
试 将 C 模糊 化 为 小 、 偏 小 \ 偏 大 .大 四 个 模糊 语言 ,从 而 完成 了 对 输入 C 的 模糊 化 。 

2. 隶属 度 函 数 的 选择 

隶属 度 函数 可 以 是 任意 形状 的 曲线 ,在 此 选择 梯形 隶属 度 函 数 , 其 格式 如 下 : 


y= trapmf(x,[ab cd]) 


其 中 ,参数 a 和 d 确定 梯形 的 “ 脚 ”; 而 参数 b 和 < 确定 梯形 的 “肩膀 ”。 
各 输入 信号 隶属 度 函 数 参数 的 选择 如 下 : 


A: samll [0 0 499 864] 
psmall [499 864 1450 1571] 


pbig [1450 1571 1846 2064] 
big [1846 2064 3000 3000] 
B: small [1400 1400 2032 2557] 
mid [2032 2557 3017 3060] 
big [3017 3060 3500 3500] 


C: small [0 350 1412 1515] 
psmall [1412 1515 1735 2002] 
pbig [1735 2002 2463 2666] 
big: [2463 2666 3500 3500] 


3. 模糊 规则 的 建立 
建立 模糊 规则 如 下 : 


A( 偏 小 )and B( 小 )and C (大 ), 输 出 为 1 
A( 大 ) and B( 大 )and C (小 ), 输 出 为 2 
A( 大 ) and B( 中 )and C (小 ), 输 出 为 2 
A( 偏 大 )and B( 小 )and C( 偏 小 ), 输 出 为 3 
A( 偏 大 )and B( 小 )and C( 偏 大 ), 输 出 为 3 
A( 小 ) and B( 大 )and C( 偏 大 ), 输 出 为 4 


5.6.3 基于 MATLAB 的 GUI 工具 的 模糊 算法 构建 一 一 FIS 实现 


首先 在 FIS 界面 设置 模糊 运算 方式 ,选择 结果 如 图 5-24 所 示 。 

其 中 , 解 模 糊 选 择 MOM 方式 。 然 后 编辑 输入 变量 和 输出 变量 的 隶属 度 函 数 , 如 图 5-25 
所 示 。 

输入 模糊 规则 表 , 如 图 5-26 所 示 。 

此 时 ,用 户 可 以 从 输出 曲面 观测 器 中 观测 整个 论 域 上 输出 变量 与 输入 变量 的 关系 。 
图 5-27 为 输入 变量 A、B 与 输出 变量 间 的 关系 图 。 

至 此 模糊 分 类 系统 设计 完成 。 


模式 识别 与 人 工 智能 (基于 MATLAB) 


图 5-24 模糊 运算 方式 的 选择 


(c) 输入 变量 C 的 隶属 度 函 数 (d) 输出 变量 Type 的 隶属 度 函 数 
图 5-25 输入 变量 和 输出 变量 的 隶属 度 函 数 
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Wf(A is phig) and (Bis small) and (C is psmall) then (output1 is 3) (人 
WA is phig) and (BS and (C is pbig) then (output1 is 3) (1 


5-26 ”输入 模糊 规则 表 


5-27 输入 变量 A.B 与 输出 变量 间 的 关系 图 


5.6.4 系统 结果 分 析 
打开 规则 观测 器 ,界面 如 图 5-28 所 示 。 


图 5-28 规则 观测 器 
在 Input 文本 框 输入 样本 , 即 可 从 输出 端口 得 到 相应 的 分 类 结果 ,如 图 5-29 所 示 。 


图 5-29 测试 数据 窗口 


第 5 章 模糊 聚 类 分 析 


输入 样本 数据 [1739. 94,1675. 15,2395. 96] 后 , 即 可 得 分 类 值 3。 按 照 上 述 方法 测试 数 


据 , 结 果 如 表 5-5 所 示 。 
表 5-5 模糊 系统 分 类 结果 


序 号 A B @ 目标 分 类 结果 | 模糊 分 类 系统 测试 结果 
1 1739. 94 1675. 15 2395. 96 3 3 
2 373. 3 3087.05 2429. 47 4 4 
3 1756. 77 1652 1514. 98 3 3 
4 864.45 1647. 31 2665. 9 1 
5 222. 85 3059. 54 2002. 33 4 4 
6 877. 88 2031. 66 3071. 18 1 1 
7 1803. 58 1583. 12 2163. 05 3 3 
8 2352. 12 2557. 04 1411. 53 2 2 
9 401.3 3259. 94 2150. 98 4 4 
10 363. 34 3477. 95 2462. 86 4 1 
11 1571.17 1731.04 1735. 33 3 3 
12 104.8 3389. 83 2421. 83 4 4 
13 499. 85 3305.75 2196. 22 4 4 
14 2297. 28 3340. 14 535. 62 2 2 
15 2092. 62 3177. 21 584. 32 2 2 
16 1418. 79 1775. 89 2772. 9 1 1 
17 1845. 59 1918. 81 2226. 49 3 3 
18 2205. 36 3243. 74 1202. 69 2 2 
19 2949. 16 3244. 44 662. 42 2 2 
20 1692. 62 1867.5 2108. 97 3 3 
21 1680. 67 1575. 78 1725. 1 3 3 
22 2802. 88 3017. 11 1984. 98 2 2.5 
23 172.78 3084. 49 2328. 65 4 4 
24 2063. 54 3199. 76 1257. 21 2 2 
25 1449. 58 1641. 58 3405. 12 1 
26 1651. 52 1713. 28 1570. 38 3 3 
27 341. 59 3076. 62 2438. 63 4 4 
28 291.02 3095. 68 2088. 95 4 4 
29 237. 63 3077.78 2251. 96 4 4 
30 1702.8 1639. 79 2068. 74 3 
31 1877. 93 1860. 96 1975. 3 3 
32 867. 81 2334. 68 2535. 1 
33 1831. 49 1713. 11 1604. 68 3 
34 460. 69 3274. 77 2172. 99 4 
35 2374. 98 3346. 98 975. 31 2 
36 2271. 89 3482. 97 946.7 2 
37 1783. 64 1597. 99 2261. 31 3 
38 198. 83 3250. 45 2445. 08 4 
39 1494. 63 2072. 59 2550. 51 1 


续 表 
序 号 A B C 目标 分 类 结果 | 模糊 分 类 系统 测试 结果 
40 1597.03 1921. 52 2126. 76 3 
41 1598. 93 1921.08 1623.33 3 
42 1243.13 1814.07 3441.07 . 
43 2336. 31 2640. 26 1599. 63 2.5 
44 354 3300. 12 2373. 61 4 
45 2144.47 2501. 62 591. 51 2 
46 426. 31 3105. 29 2057. 8 4 
47 1507.13 1556. 89 1954. 51 3 
48 343.07 3271.72 2036. 94 4 
49 2201. 94 3196. 22 935.53 2 
50 2232.43 3077. 87 1298. 87 2 
51 1580. 1 1752.07 2463. 04 3 
52 1962.4 1594. 97 1835. 95 3 
53 1495. 18 1957. 44 3498. 02 中 
54 1125. 17 1594. 39 2937. 73 1 
55 24. 22 3447. 31 2145. 01 4 
56 1269.07 1910.72 2701. 97 1 
57 1802.07 1725. 81 1966. 35 3 
58 1817. 36 1927.4 2328. 79 3 
59 1860. 45 1782. 88 1875. 13 3 


从 系统 的 分 类 结果 可 知 ,错误 率 为 1/29:3.4%。 用 户 可 修改 输入 数据 的 隶属 度 函 数 、 
模糊 控制 规则 表 ,进一步 降低 分 类 错误 率 。 


5.6.5 结论 


本 节 利 用 MATLAB 中 的 GUI 工具 箱 来 建立 模糊 控制 系统 ,基本 实现 了 酒 瓶 颜色 的 分 
类 ,模糊 聚 类 是 一 种 软 分 类 方法 ,用 于 解决 没有 明显 界线 的 类 别 。 其 中 模糊 规则 是 影响 最 后 
聚 类 结果 最 关键 的 因素 。 当 分 类 效果 不 好 时 ,可 以 通过 修改 隶属 度 函 数 和 模糊 规则 来 实现 
最 优 分 类 。 


数据 聚 类 一 一 模糊 C 均值 聚 类 


5.7.1 模糊 C 均值 聚 类 的 应 用 背 景 


传统 的 聚 类 分 析 是 一 种 硬 划 分 (crisp partition) , 它 把 每 个 待 辨 识 的 对 象 严格 地 划分 到 
某 类 中 ,具有 "“ 非 此 即 彼 * 的 性 质 , 因 此 这 种 类 别 划 分 的 界限 是 分 明 的 。 然 而 实际 上 大 多 数 对 
象 并 没有 严格 的 属性 ,它们 在 性 质 和 类 属 方面 存在 着 中 介 性 ,具有 “ 亦 此 亦 彼 ” 的 性 质 ,因此 
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适合 进行 软 划 分 。Zadeh 提出 的 模糊 集 理论 为 这 种 软 划分 提供 了 有 力 的 分 析 工 具 , 人 们 
始 用 模糊 方法 来 处 理 聚 类 问题 ,并 称 为 模糊 聚 类 分 析 。 模 糊 聚 类 得 到 了 样本 属于 各 个 类 别 
的 不 确定 性 程度 ,表达 了 样本 类 属 的 中 介 性 ,建立 起 了 样本 对 于 类 别 的 不 确定 性 的 描述 ,能 
更 客观 地 反映 现实 世界 ,从 而 成 为 聚 类 分 析 研 究 的 主流 。 

在 基于 目标 函数 的 聚 类 算法 中 模糊 C 均值 (fuzzy c-means,FCM) 类 型 算法 的 理论 最 为 
完善 ,应 用 最 为 广泛 。 


5.7.2 模糊 C 均值 算法 


1. 模糊 C 均值 聚 类 的 准则 


设 zi(i 王 1,2,…,n) 是 nn 个 样本 组 成 的 样本 集合 ,c 为 预定 的 类 别 数 目 ,yi (zi) 是 第 i 个 
样本 对 于 第 j 类 的 隶属 度 函 数 。 用 隶属 度 函 数 定义 的 聚 类 损失 函数 可 以 写 为 


Ji= 2 2 [Cz zi—m; ll? (5-38) 
其 中 ,过 1, 是 一 个 可 以 控制 聚 类 结果 的 模糊 程度 的 常数 。 
在 不 同 的 隶属 度 定 义 方法 下 最 小 化 聚 类 损失 函数 ,就 得 到 不 同 的 模糊 聚 类 方法 。 其 中 
最 有 代表 性 的 是 模糊 C 均值 方法 , 它 要 求 一 个 样本 对 于 各 个 聚 类 的 隶属 度 之 和 为 1, 即 


Dbz) = 1 t= 2 (5-39) 
j= 


2. 模糊 C 均值 算法 步骤 


(1) 设 定 聚 类 数目 < 和 加 权 指数 0 。 

J.C. Bezdek 根据 经 验 , 认 为 5 取 2 最 合适 。 

Cheung 和 Chen 从 汉字 识别 的 应 用 背景 得 出 5 的 最 佳 取 值 应 在 1. 25 一 1.75。 

Bezdek 和 Hathaway 等 人 从 算法 收敛 性 角度 着 手 , 得 出 5 的 取 值 与 样本 数目 nw 有 关 的 
结论 ,建议 5 的 取 值 要 大 于 n/(n 一 2)。 

Pal 等 人 从 聚 类 有 效 性 方面 的 实验 研究 得 到 5 的 最 佳 选 取 区 间 为 [1. 5,2. 5j, 在 不 做 特 
殊 要 求 下 可 取 区 间 中 值 5 二 2。 

(2) 初始 化 各 个 聚 类 中 心 到 


mi = 调 2y (5-40) 
式 中 ,Ni 是 第 ; 聚 类 书 中 的 样本 数目 。 
(3) 重复 下 面 的 运算 ,直到 各 个 样本 的 隶属 度 值 稳定 。 
用 当前 的 聚 类 中 心 根 据 下 式 计算 隶属 度 函 数 : 


(TD) = 一 一 一 一 一 (5-41) 


用 当前 的 隶属 度 函 数 按 下 式 更 新 计算 各 类 聚 类 中 心 : 


mj 


2 [ps (zx) Prs 
5 [way 


(5-42) 


当 模 糊 C 均值 算法 收敛 时 ,就 得 到 了 各 类 的 聚 类 中 心 和 各 个 样本 对 于 各 类 的 隶属 度 
值 ,从 而 完成 了 模糊 聚 类 划分 。 如 果 需 要 ,还 可 以 将 模糊 聚 类 结果 进行 解 模糊 , 即 用 一 定 的 
规则 把 模糊 聚 类 划分 转化 为 确定 性 分 类 。 


5.7.3 模糊 C 均值 聚 类 的 MATLAB 实现 


这 里 还 是 采用 表 1-2 所 示 的 数据 。 


1. MATLAB 模糊 C 均值 数据 聚 类 识别 函数 
在 MATLAB 中 (=2), 只 要 直接 调用 如 下 程序 即 可 实现 模糊 C 均值 聚 类 ， 


[Center,U, obj_fcn] = fcm(data, cluster_n) 


其 中 ,data: 要 聚 类 的 数据 集合 ， 


等 一 行为 一 个 样本 ;cluster_n: 聚 类 数 ; Center: 最 终 的 聚 
类 中 心 矩 阵 ,每 一 行为 聚 类 中 心 的 坐标 值 ; U: 最 终 的 模糊 分 区 矩阵; obj_fcn: 在 迭代 过 程 
中 的 目标 函数 值 。 

注意 ; 在 使 用 上 述 方法 时 ,要 根据 中 心 坐 标 Center 的 特点 分 清楚 每 一 类 中 心 所 代表 的 
实际 中 的 哪 一 类 ,然后 才能 准确 地 将 待 聚 类 的 各 方案 准确 地 分 为 各 自 所 属 的 类 别 ; 否则 ,就 
会 出 现 张 冠 李 戴 的 现象 。 


2. MATLAB 图 形 显示 聚 类 模式 
使 用 命令 [Center,U.,obj_fcn] = fem(data,4) 进 行 聚 类 后 ,可 调用 MATLAB 图 形 窗 


口 显示 上 聚 类 结果 ,命令 格式 如 下 : 
maxU = max(U); 
indexl = find(U(1,:) == maxU 
index2 = find(U(2,:) == maxU 
index3 = find(U(3,:) == maxU 
index4 = find(U(4,:) == maxU 


最 大 素 属 度 

找到 属于 第 一 类 的 点 
找到 属于 第 二 类 的 点 
找到 属于 第 三 类 的 点 
找到 属于 第 四 类 的 点 


为 了 提高 图 形 的 区 分 度 ,添加 如 下 命令 : 


line(data( indexl,1),data(indexl,2),data( index1, 3), 'linestyle', 'none', 'marker', ' x* ', 'color', 'g'); 
line(data( index2, 1), data( index?2, 2), data( index2, 3), 'linestyle', 'none', 'marker', 'x* ', 'color', 'r'); 
line(data( index3, 1), data( index3, 2), data( index3, 3), 'linestyle', 'none', 'marker', '+ ', 'color', 'b'); 
line(data( index4, 1), data( index4, 2), data( index4, 3), 'linestyle', 'none', 'marker', '+ ', 'color', 'y'); 


3. MATLAB 实现 模糊 C 均值 聚 类 
实现 模糊 C 均值 聚 类 的 代码 如 下 : 


clear all; 

data = [1739.94 
3 
1756;77 
864.45 
222.85 
877.88 
1803.58 
2352.12 
401.3 
363.34 
5 
104.8 
499.85 
2297.28 
2092.62 
1418.79 
1845.59 
2205.36 
2949.16 
1692.62 
1680.67 
2802.88 
172.78 
2063.54 
1449.58 
1651.52 
341.59 
291.02 
237.63 
1702.8 
1877.93 
867.81 
1831.49 
460.69 
2374.98 
2271.89 
1783.64 
198.83 
1494.63 
1597.03 
1598.93 
1243.13 
2336.31 
354 
2144.47 
426.31 
1507.13 
343.07 
2201.94 


1675. 
3087. 


1652 


1647. 
3059. 
3 
1583. 
2557. 
3259: 
3477. 
ye 
3389. 
3305. 
3340. 
3 
i 
1918. 
3243. 
3244. 
1867. 
和 5755 
3017. 
3084. 
3199. 
1641. 
4713: 
3076. 
3095. 
3077. 
1639. 
1860. 
2334. 
1713. 
3274. 
3346. 
3482. 
1597. 
3250. 
2072. 
1921. 
1921. 
1814. 
2640. 
3300. 
2501. 
3105, 
1556. 
3271. 
3196. 


2395. 
2429. 
1514. 
2665. 
2002. 
3071. 
2163. 
1411. 
2150. 
2462. 
17355 
2421 . 
2196. 


96 
47 
98 
9 

33 
18 
05 
53 
98 
86 
33 
83 
22 


535.62 
584.32 


2772- 
2226. 
1202. 


9 
49 
69 


662.42 


2108. 
1725, 
1984. 
2328. 
1257. 
3405 . 
1570. 
2438. 
2088. 
2251. 
2068. 


97 


1975,3 
2535.1 


1604. 
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68 
99 


975:31 


946.7 
2261. 
2445. 
2550. 
2126. 
1623. 
3441. 
L399 
2373. 


31 
08 
S51 
76 
33 
07 
63 
61 


591.51 


2057. 
1954. 
2036. 


8 
SL 
94 


935.53 


棋 式 


别 与 人 工 智能 (基于 MATLAB) 


2232.43 3077.87 1298.87 
1580.1 1752.07 2463.04 
1962.4 1594.97 1835.95 
1495.18 1957.44 3498.02 
1125.17 1594.39 2931.73 
24.22 3447.31 2145.01 
1269.07 1910.72 2701.97 
1802.07 1725.81 1966.35 
1817.36 1927.4 2328.79 
1860.45 1782.88 1875.13 
J; 

[center,U, obj fcn] = fcm(data, 4); 

plot3(data(:,1),data( :,2),data( :, 3), '0'); 


grid; 

maxU = max(U); 

indexl = find(U(1,: maxU) 
index2 = find(U(2,: maxU) 
index3 = find(U(3,: maxU) 


index4 = find(U(4,: maxU) 


line(data( indexl, 1), data( index!1, 2), datal( index1, 3), 'linestyle', 'none', 'marker', ' * ', 'color', 'g'); 
line( datal( index?2, 1), datal( index?2, 2), data( index2, 3), 'linestyle', 'none', 'marker', '* ', 'color', 'r'); 
line( datal index3, 1), data( index3, 2), data( index3, 3), 'linestyle', 'none', 'marker', '+ ', 'color', 'b'); 
line( data( index4, 1), data( index4, 2), data( index4, 3), 'linestyle', 'none', 'marker', '+ ', 'color', 'y'); 


title(' 模 糊 cC 均 值 聚 类 分 析 图 '); 
xlabel( ' 第 一 特征 坐标 '); 
ylabel( ' 第 二 特征 坐标 '); 
zlabel(' 第 三 特征 坐标 '); 


5.7.4 模糊 C 均值 聚 类 结果 分 析 
运行 MATLAB 程序 ,数据 的 模糊 C 均值 聚 类 分 析 数 据 如 下 : 


Iteration count = 1,obj. fcn = 28484303.583307 
Iteration count = 2,obj. fcn = 22894174.219903 
Iteration count = 3,obj. fcn = 22492974.034424 
Iteration count = 4,obj. fcn = 20879539.602697 
Iteration count = 5,obj. fcn = 14444987.068964 
Iteration count = 6,obj. fcn = 8322567.664727 
Iteration count = 7,obj. fcn = 7551351.839018 
Iteration count = 8,obj. fcn = 7439273.677928 
Iteration count = 9,obj. fcn = 7421451.003657 
Iteration count = 10,obj. fcn = 7417960.721127 
Iteration count = 11,obj. fcn = 7417133.213718 
Iteration count = 12,obj. fcn = 7416918.432660 
Iteration count = 13,obj. fcn = 7416860. 845351 
Iteration count = 14,obj. fcn = 7416845.240472 
Iteration count = 15,obj. fcn = 7416840.997724 


Iteration count = 
Iteration count = 
Iteration count = 
Iteration count = 
Iteration count = 
Iteration count = 
Iteration count = 
Iteration count = 
Iteration count = 
Iteration count = 
indexl = 

4 6 16 25 32 
index2 = 

2 5 9 0 1 
index3 = 


8 14 15 18 19 22 24 35 36 23 ‘45: 49 50 


index4 = 


16,0bj. fcn 
17,0bj. fcn 
18,obj. fcn 
19,obj. fcn 
20,obj. fcn 
21,0bj. fcn 
22,0bj. fcn 
23,0bj. fcn 
24,0bj. fcn 
25,0bj. fcn 


39 妃 53 


13 23° 27 


= 7416839.842995 
= 7416839.528623 
= 7416839.443030 
= 7416839.419726 
= 7416839.413381 
= 7416839.411653 
= 7416839.411183 
= 7416839.411055 
= 7416839.411020 
= 7416839.411010 
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分 类 结果 图 如 图 


5-30 所 示 。 


图 5-30 分 类 结果 图 
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经 过 对 比 发 现 , 用 模糊 C 均值 进行 聚 类 分 析 的 分 类 结果 与 给 定 结果 完全 吻合 。 


二 特征 坐 


5.7.5 结论 


模糊 C 均值 聚 类 算法 是 目前 比较 常用 的 模糊 聚 类 算法 , 它 有 着 完善 的 理论 和 深厚 的 数 
学 基础 。 当 数据 的 结果 得 是 密集 的 , 且 艇 与 徐 之 间 区 分 明显 时 , 它 的 效果 较 好 。 而 且 该 算法 
是 相对 可 伸缩 和 高 效率 的 ,因为 算法 的 复杂 度 是 O(cb) ,其 中 ,n 是 用 户 对 象 的 个 数 ,c 是 聚 
类 的 数目 ,5b 是 迭代 的 次 数 。 

然而 模糊 C 均值 聚 类 算法 也 有 不 少 缺 点 : 

(1) 模糊 C 均值 聚 类 算法 对 孤立 点 数据 比较 敏感 。 

(2) 模糊 C 均值 聚 类 算法 需要 事先 指定 聚 类 数目 c 和 模糊 加 权 指 数 冯 ,而 < 和 wm 直接 
影响 着 聚 类 的 结果 。 

(3) 由 于 模糊 聚 类 的 目标 函数 是 非 凸 的 ,而 模糊 C 均值 聚 类 类 型 算法 又 是 迭代 疏 山 的 ， 
因此 容易 陷入 局 部 极 值 点 或 鞍点 ,而 得 不 到 最 优 解 。 


由 OU 数据 聚 类 一 一 模糊 ISODATA 聚 类 


5.8.1 模糊 ISODATA 聚 类 的 应 用 背景 


G. H. Ball 与 D.J. Hall 于 1965 年 提出 的 ISODATA 算法 是 一 个 通过 逐步 修改 聚 类 中 
心 的 个 数 与 位 置 来 达到 分 类 目的 的 集群 算法 ,后 来 不 断 有 人 提出 它 的 各 种 改进 算法 ,其 中 包 
括 Ball 和 Hall 1967 年 提出 的 改进 算法 .CLASS、ASP 等 。1974 年 J].C. Dunn 首次 提出 应 
用 模糊 数学 判 据 的 ISODATA 集群 算法 一 一 模糊 ISODATA。 算 法 通过 每 个 样本 点 对 各 类 
的 隶属 度 和 矩阵 表示 分 类 结果 ,通过 不 断 修 改 聚 类 中 心 的 位 置 来 进行 分 类 。1976 年 J.C. 
Bezdek 把 Dunn 的 方法 推广 到 更 一 般 的 情形 ,并 得 到 了 一 些 有 益 的 结论 ,其 中 包括 新 的 判 
据 , 隶 属 度 函 数 与 聚 类 中 心 的 计算 公式 。J. C. Bezdek 于 1979 年 用 W. Zangwill 的 理论 证 明 
了 模糊 ISODATA 的 收敛 性 。 该 方法 已 在 行星 跟踪 系统 ,心脏 病 分 析 和 天 气 预报 等 方面 得 
到 了 应 用 。 


5.8.2 模糊 ISODATA 算法 的 基本 原理 


J.C. Bezdek 在 普通 分 类 基础 上 ,利用 模糊 集合 的 概念 提出 了 模糊 分 类 问题 。 认 为 被 分 
类 对 象 集合 和 中 的 样本 X; 以 一 定 的 隶属 度 属于 某 一 类 , 即 所 有 的 样本 都 分 别 以 不 同 的 隶 
属 度 属于 某 一 类 。 因 此 每 一 类 就 被 认为 是 样本 集 关上 的 一 个 模糊 子 集 ,于 是 ,每 一 种 这 样 
的 分 类 结果 所 对 应 的 分 类 和 矩阵 就 是 一 个 模糊 和 矩阵。 模糊 ISODATA 聚 类 方法 从 选择 的 初 
始 聚 类 中 心 出 发 ,根据 目标 函数 ,用 数学 迭代 计算 的 方法 反复 修改 模糊 矩阵 和 聚 类 中 心 ,并 
对 类 别 进行 合并 、 分 解 和 删除 等 操作 ,直到 合理 为 止 。 

设 有 限 样本 集 ( 论 域 ) X= 二 {Xi ,XX;,… ,Xn) ,每 一 个 样本 有 s 个 特征 Xj;== {xn ,zj *…， 
Zz}，(j 二 1,2,… ,NN), 即 欲 把 样本 的 特征 矩阵 


Ty ZE 汪 访 Xl 
VE i 

Xm = ||, | |, (5-43) 
LZn LrNI TN2 “” TNs 

分 为 K 类 (2<K<N), 则 N 个 样本 划分 为 K 类 的 模糊 分 类 和 拖 阵 为 

2 [pn pa … pn 

a | ss | (5-44) 
Lpr, [yr kz °° KN 


其 满足 下 列 三 个 条 件 : 


osm i= lwR;i= LyN (5-45) 
N 
C2 Da = i j= lds (5-46) 
i=1 
N 
(OZ DN <N, i=1,2,.,K (5-47) 
i=1 


条 件 (2) 表 明 每 一 样本 属于 各 类 的 隶属 度 之 和 为 1; 条 件 (3) 表 明 每 一 类 模糊 集 不 可 能 
是 空 集合 , 即 总 有 样本 不 同 程度 的 隶属 于 某 类 。 
定义 K 个 聚 类 中 心 Z 一 {2 Za,Zx}。 其 中 ,Zi 一 (Za Za Za 一 1,2，… 开 。 


Z22 Ts 


(5-48) 


第 i 类 的 中 心 Z; 即 人 为 假想 的 理想 样本 , 它 对 应 的 s 个 指标 值 是 该 类 样本 所 对 应 的 指 
标 值 的 平均 值 


N 
» (pu)™ Xs 
_ k=1 


| Ee hb Ry = LB (5-49) 
2 CA) 
k=1 


构造 准则 函数 
1= 2 Lt DX 2 (5-50) 


其 中 , | X; 一 Zi 表示 第 j 个 样本 与 第 i 类 中 心 之 间 的 欧 氏 距离 ; J 表示 所 有 待 聚 类 样本 与 
所 属 类 的 聚 类 中 心 之 间距 离 的 平方 和 。 

为 了 确定 最 佳 分 类 结果 ,就 是 寻求 最 佳 划分 矩阵 U 和 对 应 的 聚 类 中 心 展 ,使 达到 极 
小 。Dunn 证 明了 求 上 述 泛 函 的 极 小 值 的 问题 可 解 。 


5.8.3 模糊 ISODATA 算法 的 基本 步骤 


(1) 选择 初始 聚 类 中 心 2:(0)。 例 如 :可 以 将 全 体 样 本 的 均值 作为 第 一 个 聚 类 中 心 , 然 
后 在 每 个 特征 方向 上 加 和 减 一 个 均 方差 , 共 得 (2n 十 1) 个 聚 类 中 心 ,n 是 样本 的 维 数 ( 特 征 


数 ) 。 也 可 以 用 其 他 方法 选择 初始 聚 类 中 心 。 

(2) 若 已 选择 了 K 个 初始 聚 类 中 心 ,接着 利用 模糊 K 均值 算法 对 样本 进行 聚 类 。 由 于 
现在 得 到 的 不 是 初始 隶属 度 和 矩阵 U(0) ,而 是 各 类 聚 类 中 心 ,所 以 算法 应 从 模糊 kK 均值 算法 
的 第 四 步 开 始 , 即 直接 计算 下 一 步 的 隶属 度 矩 阵 0D(0) 。 继 续 K 均值 算法 直到 收敛 为 止 ,最 
终 得 到 隶属 度 矩 阵 U 和 KK 个 聚 类 中 心 Z 二 {21,2s,… ,Zr)。 然 后 进行 类 别 调整 。 

Q@ 计算 初始 隶属 度 矩 阵 U(0) ,矩阵 元 素 的 计算 方法 为 


向 (0) 一 二 i=1,2, Kj=12 Ni m2 (5-51) 
" mT 
一 人 
p=1 ‘dp 


式 中 ,d; 是 第 j 个 样本 到 第 i 类 初始 聚 类 中 心 Z:(0) 的 距离 。 为 避免 分 母 为 0, 特 规定 : 若 
dy 三 0;, 则 ji 二 1,pw(0) 二 0(p 关 让。 可 见 ,ds 越 大 ,yp (0) 越 小 。 
@ 求 各 类 的 新 的 聚 类 中 心 Zi(L) ,L 为 迭代 次 数 。 


2 [ui DIX; 
Zi(L) = EF jy = LR (5-52) 
之 [uCL)]" 
式 中 ,参数 办 三 2, 是 一 个 控制 聚 类 结果 模糊 程度 的 常数 。 可 以 看 出 各 聚 类 中 心 的 计算 必须 
用 到 全 部 的 N 个 样本 ,这 是 与 非 模糊 的 K 均值 算法 的 区 别 之 一 。 在 K 均值 算法 中 , 某 一 类 
的 聚 类 中 心 仅 由 该 类 样本 决定 ,不 涉及 其 他 类 。 
Q@ 计算 新 的 隶属 度 矩 阵 避 (L 十 1) ,矩阵 元 素 的 计算 方法 为 


iO ,i=1,2,,K;j=1,2,%,N; m 之 2 (5-53) 


己 () 

式 中 ,dj 是 第 L 次 迭代 完成 时 ,第 j 个 样本 到 第 i 类 聚 类 中 心 Zi(L) 的 距离 。 为 避免 分 母 为 
0, 特 规定 : 若 dy 二 0; 则 ji (LL 十 1)==1,pw(L 十 1) 二 0(p 关 门 。 可见 , 忆 越 大 ,pw (L 十 1) 
越 小 。 

@ 回 到 第 @ 步 ,重复 至 收 化 。 收 敛 条 件 为 max{ ps(L 二 1) 一 pys(L)1)<e, 其 中 ,e 为 规 
定 的 参数 。 

(3) 类 别 调整 。 调 整 分 三 种 情形 : 

@ 合并 。 

假定 各 聚 类 中 心 之 间 的 平均 距离 为 DD, 则 取 合 并 贱 值 为 

Ma = D[1— F(K)] (5-54) 

其 中 ,F(K) 是 人 为 构造 的 函数 ,0 三 F(K) 志 1, 而 且 F(K) 应 是 KK 的 减 函 数 ,通常 取 F(K) 二 


志 是 一 个 可 选择 的 参数 。 可 见 , 若 DD 确定 , 则 K 越 大 时 Miwa 也 越 大 , 即 合并 越 容易 发 生 。 
若 聚 类 中 心 Z: 和 ZZ 间 的 距离 小 于 Mia , 则 合并 这 两 个 点 而 得 到 新 的 聚 类 中 心 Zi ,Zi 为 


N 
(2 )z + (Pw)z 
-一 一 二 (5-55) 
Dp t+ Dp 


式 中 ,N 为 样本 个 数 。 可 见 ,Zr 是 Z; 和 2; 的 加 权 平 均 , 而 所 用 的 权 系数 便 是 全 体 样 本 对 ww 
和 wj 两 类 的 隶属 度 。 
@ 分 解 。 
首先 计算 各 类 在 每 个 特征 方向 上 的 “模糊 化 方差 "。 对 于 wi; 类 的 第 7 个 特征 ,模糊 化 方 
差 的 计算 公式 为 
Ss = NH Sy (zy —zg), j=12 ns i=12, KRK (5-56) 


式 中 6 是 参数 ,通常 选 8 一 1。zm ,zs 分别 表示 样本 X。 和 聚 类 中 心 2 的 第 j 个 特征 值 。S; 一 
VS5 ,全 体 S; 的 平均 值 记 作 S ,然后 求 阔 值 
Fa = S[1+G(K)]J (5-57) 
G(K) 是 类 数 K 的 增 函 数 ,通常 取 G(K)==K’”,y 是 参数 。 式 (5-57) 表 明 , 当 S 确定 时 ， 
类 数 K 越 大 , 越 不 易 分解 。 下 面 分 两 步 进行 分 解 : 


第 一 步 ,检查 各 类 的 “聚集 程度 "。 对 于 任 一 类 wi, 取 sumi = 2 tsp， 其 中 ,t= 
p=1 


0,pp 0 N 
1 。 然 后 取 并 = Ds Ci 二 sumi/Ti, 其 中 ,0 为 一 参数 ,0 二 9 二 0.5。Ci 表示 wi 类 
1,p%>0 We 


的 聚集 程度 。 上 两 式 的 含义 是 对 于 每 一 类 wi ,首先 舍 去 那些 对 它 的 隶属 度 太 小 的 样本 , 然 
后 计算 其 他 各 样本 对 该 类 的 平均 隶属 度 Ci。 若 Ci; 室 Awms(Avm: 为 参数 ), 则 表示 类 的 聚集 
程度 较 高 ,不 必 进 行 分 解 ; 否则 考虑 下 一 步 。 

第 二 步 , 分 解 。 对 于 任 一 不 满足 Ci 二 Avm 的 wi 类 考虑 其 每 个 S5, 若 Sj 之 Fa, 便 在 第 17 
个 特征 方向 上 对 聚 类 中 心 2; 加 和 减 ASy (k 为 分 裂 系 数 ,0 二 k 志 1) ,得 到 两 个 新 的 聚 类 中 心 。 

注意 ,这 里 每 个 量 的 计算 都 考虑 到 了 全 体 样本 对 各 类 的 隶属 度 。 

@ 删除 。 

删除 某 个 类 wi 或 聚 类 中 心 Zi 的 条 件 有 两 个 。 

条 件 1: T;<6N/K,6 是 参数 ,T; 见 上 式 , 它 表示 对 w; 类 隶属 度 超过 0 的 点 数 。 这 一 条 
件 表 示 对 w; 类 隶属 度 高 的 点 很 少 , 应 该 删除 。 

条 件 2: C; 达 A ,但 wi 类 不 满足 分 解 条 件 , 即 对 所 有 的 j,S; 三 Fey。 这 个 条 件 表明 ,在 
Zi 的 周围 存在 着 一 批 样本 点 ,它们 的 聚集 程度 不 高 ,但 也 不 是 非常 分 散 。 这 时 ,我 们 认为 Q， 
也 不 是 一 个 理想 的 聚 类 中 心 。 

符合 以 上 两 个 条 件 之 一 者 ,将 被 删除 。 

如 果 在 第 (3) 步 类 别 调整 中 进行 了 合并 、 分 解 或 删除 , 则 在 每 次 处 理 后 都 应 进行 下 面 所 
指出 的 讨论 ,并 在 全 部 处 理 结束 后 做 出 一 个 选择 : 停止 在 某 个 结果 上 ,或 者 转 到 第 (2) 步 重 
新 迭代 。 如 果 在 第 (3) 步 中 没有 进行 任何 类 别 调整 , 则 表示 已 经 不 需要 改进 结果 ,计算 停止 。 

(4) 关于 最 佳 类 数 或 最 佳 结 果 的 讨论 。 

上 述 所 得 为 预选 定 分 类 数 时 的 最 优 解 ,为 局 部 最 优 解 。 最 优 聚 类 数 有 可 借助 下 列 
判定 聚 类 效果 的 指标 值得 到 。 

语 ， 下 越 接 近 1, 聚 类 效果 越 好 。 


1 


ws 
je 


分 类 系数 : F(R) 一 ~ 


iy 


平均 模糊 病 ; HCR) 一 六 >) >2wslnCps)，H 越 接近 于 0, 聚 类 效果 越 好 。 


由 此 ,可 以 分 别 选 定 K(2<K<N), 计 算 其 所 得 聚 类 结果 的 聚 类 指标 值 并 进行 比较 , 求 
得 最 优 聚 类 个 数 玉 , 即 满足 下 最 接近 1 或 瑟 最 接近 0 的 天 值 。 

(5) 分 类 清晰 化 。 有 两 种 方法 : 

@ 5 与 哪 一 类 的 聚 类 中 心 最 接近 ,就 将 X; 归 到 哪 一 类 。 即 : YX EX, 若 上 Xj; 一 Ze 二 
min |‖X; 一 2 | ,就 将 X; Ewi 类 。 

@ Xi 对 哪 一 类 的 隶属 度 最 大 ,就 将 它 归 于 哪 一 类 。 即 : 在 UU 的 第 j 列 中 , 若 ywi (LL 十 1) 二 
Au TDG=1,2,…,N), 则 XiEw 类 。 

当 算 法 结束 时 ,就 得 到 了 各 类 的 聚 类 中 心 以 及 表示 各 样本 对 各 类 隶属 程度 的 隶属 度 矩 


阵 ,模糊 聚 类 到 此 结束 。 这 时 ,准则 丽 数 了 一 2 2 [xs(L 十 DJ]" | Xi 一 Zi ?达到 最 小 。 


5.8.4 模糊 ISODATA 算法 的 MATLAB 程序 实现 


这 里 使 用 表 1-2 的 59 组 数据 为 例 来 实现 聚 类 ,模糊 ISODATA 算法 的 MATLAB 程序 
流程 图 如 图 5-31 所 示 。 


选择 初始 聚 类 中 心 
计算 初始 隶属 度 矩 阵 


求 各 类 的 新 的 聚 类 中 心 Z(D) 


计算 新 的 隶属 度 矩 阵 U(L+1) 


图 5-31 模糊 ISODATA 算法 流程 图 


1. 调节 参数 初始 化 
调节 参数 初始 化 代码 如 下 ; 


Nc = 4; 

m= 2; 

L= 0; 

Lmax = 1000; 

Nc all = ones(Lmax,2); 


2. 模糊 ISODATA 函数 


各 初始 聚 类 中 心 数目 

s# 控制 聚 类 结果 模糊 程度 

和 迭代 次 数 

最 大 和 迭代 次 数 

s# 各 次 迭代 的 分 类 数 

最 后 一 次 隶属 度 与 前 一 次 隶属 度 差 值 的 初始 值 

# 收敛 参数 

s# 合并 阔 值 系数 

模糊 化 方差 参数 (通常 取 1) 

# 分 解 阅 值 参数 (算法 使 用 者 掌握 的 参数 ,控制 G(X) 的 上 升 速度 ) 
隶属 度 阅 值 (一 般 取 值 0 一 0.5) 

s# 平均 隶属 度 闽 值 (一 般 应 大 于 0.5, 在 0.55 一 0.6 取 值 比较 适宜 ) 
s# 分 裂 1 数 ( 取 0 一 1) 

% 删除 条 件 参数 


模糊 ISODATA 的 函数 定义 代码 如 下 : 


function [X,2,U, Nc,L, Dcc, Dccm, Mind, S, Smean,Fstd,T,C,k delete,Dpc] = 
FussyISODATA function(data, Nc,m,L, Lmax, Nc _all, Udmax, ev ab,r,f,Rvms,k divide,w) 


于 data ”样本 特征 库 

多 Nc ”初始 聚 类 中 心 数目 

% m ”控制 聚 类 结果 模糊 程度 

多 LI ”和 迭代 次 数 

% Lmax ”最 大 迭代 次 数 

% ”Nc_all ”各 次 迭代 的 分 类 数 

% Udmax ”最 后 一 次 隶属 度 与 前 一 次 隶属 度 差 值 的 初始 值 
各 e ”收敛 参 数 

多 a “合并 阔 值 系数 

和 b ”模糊 化 方差 参数 

% r 分 解 阔 值 参数 

% 上 隶属 度 阔 值 

第 Avms 平均 隶属 度 阔 值 

% kdivide 分 裂 系 数 

% w ”删除 条 件 参数 

和 返回 值 

和 xX ”样本 结构 体 数组 : 样本 特征 .所 属 类 别 
% Zz 聚 类 中 心 结构 体 数组 : 聚 类 中 心 特征 、 所 属 类 别 及 其 包含 的 样本 数 
和 U 隶属 度 矩 阵 

第 Nc ” 聚 类 中 心 数 目 

% I ”和 迭代 次 数 

% Dcc 两 两 聚 类 中 心 之 间 的 距离 矩阵 

% Dccm ”两 两 聚 类 中 心 之 间 的 距离 的 平均 值 

% Mind 合并 阅 值 

和 S ， 各 类 在 每 个 特征 方向 上 的 模糊 化 标准 差 矩阵 
% Smean ”模糊 化 标准 差 平均 值 

b Fstd 分 解闷 值 

和 T ， 各 类 超过 隶属 度 阔 值 三 的 样本 数 和 矩阵 
% C ”各 类 的 聚集 程度 矩阵 

$% k delete 删除 阔 值 

% Dpc ”各 样本 点 到 各 聚 类 中 心 的 距离 矩阵 


188 人 模式 识别 与 人 工 智能 (基于 MATLAB) 


3. 聚 类 函数 
聚 类 函数 的 代码 如 下 : 


function [2,U, Nc,Nc all,L,Dpc] = FussyISODATA newcentre(X,2,U,Nc,Nc all,Np,Ng,e,nm,L,Lmax, 
Udmax) 
和 名称: FussyISODATA newcentre 
多 参数 : 
% X 样本 结构 体 数 组 : 样本 特征 、 所 属 类 别 
z 聚 类 中 心 结构 体 数 组 : 聚 类 中 心 特征 、 所 属 类 别 及 其 包含 的 样本 数 
0 素 属 度 矩 阵 
Nc 聚 类 中 心 数 目 
Nc_all 各 次 迭代 的 分 类 数 
Np 样本 数目 
Nq 样本 维 数 
e 收敛 参数 
m 控制 聚 类 结果 模糊 程度 
LI 和 迭代 次 数 
Lmax 最 大 迭代 次 数 
Udmax 最 后 一 次 隶属 度 与 前 一 次 隶属 度 差 值 的 初始 值 
返回 值 : 
z 聚 类 中 心 结构 体 数 组 : 聚 类 中 心 特征 .所 属 类 别 及 其 包含 的 样本 数 
0 隶属 度 矩 阵 
Nc ” 聚 类 中 心 数目 
Nc_all 各 次 迭代 的 分 类 数 
L 和 迭代 次 数 
Dpc 各 样本 点 到 各 聚 类 中 心 的 距离 矩阵 


Cd 


重复 计算 新 的 隶属 度 矩 阵 及 聚 类 中 心 , 直 至 收敛 


4. 类 别 调 整 函数 
类 别 调整 函数 代码 如 下 : 


function [Z,U,Nc,Dcc,Dccm,Mind，S, Smean, Fstd,T,C,k delete] = FussyISODATA adjust(X,2,U,Nc, 
Np, Nq, a, £, Avms, b, r,k_divide,w) 

名 名 称 : FussyISODATA adjust 

参数 : 

加 x 样本 结构 体 数组 : 样本 特征 .所 属 类 别 

Zz 聚 类 中 心 结构 体 数 组 : 聚 类 中 心 特征 .所 属 类 别 及 其 包含 的 样本 数 
U 隶属 度 矩 阵 

Nc 聚 类 中 心 数目 

Np 样本 数目 

样本 维 数 

a 合并 阔 值 系数 

£ 隶属 度 靖 值 

Avms 平均 隶属 度 阔 值 

b 模糊 化 方差 参数 


Pe ere 
所 
加 


加 分 解 阔 值 参数 

% k divide 分 型 系数 

和 w 删除 条 件 参数 

名 返回 值 : 

和 % z 聚 类 中 心 结构 体 数 组 : 聚 类 中 心 特征 、 所 属 类 别 及 其 包含 的 样本 数 
和 % UD 隶属 度 和 矩阵 

名 Nc 聚 类 中 心 数目 

多 Dcc 两 两 聚 类 中 心 之 间 的 距离 矩阵 

和 Deem 两 两 聚 类 中 心 之 间 的 距离 的 平均 值 

多 Mind 合并 阔 值 

多 S 各 类 在 每 个 特征 方向 上 的 模糊 化 标准 差 矩 阵 
多 Smean 模糊 化 标准 差 平均 值 

和 Fstd 分 解 阔 值 

多 了 各 类 超过 隶属 度 阔 值 三 的 样本 数 和 矩阵 

% C 各 类 的 聚集 程度 矩阵 

% k delete 删除 阔 值 

% 功能 

% 调整 聚 类 结果 : 合并 分解 或 者 删除 


5. 完整 MATLAB 程序 及 仿真 结果 
完整 的 MATLAB 程序 代码 如 下 : 


close all; 多 关闭 窗口 

clear all; 清空 工作 空间 

data = xlsread('Nfsensor.csv', 'Nfsensor') ;% 读 人 样本 数据 

Nc = 4; #% 初 始 聚 类 中 心 数目 

ET 名 控制 聚 类 结果 模糊 程度 

人 名 办 代 次 数 

Lmax = 1000; 外 最 大 迭代 次 数 

Nc_all = ones(Lmax,2); 名 各 次 迭代 的 分 类 数 

Udmax = 10; 名 最 后 一 次 隶属 度 与 前 一 次 隶属 度 差 值 的 初始 值 

e = 0.00005; 名 收敛 参数 

a = 0.33; 光合 并 阔 值 系数 

DT 名 模糊 化 方差 参数 (通常 取 1) 

r= 0.1; 当 分 解 阔 值 参数 (算法 使 用 者 掌握 的 参数 ,控制 G(K) 的 上 升 速度 ) 
E = 0.68; s 隶 属 度 阔 值 (一 般 取 值 0 一 0.5) 

Rvms = 0.83; 名 平均 隶属 度 阅 值 (一般 应 大 于 0.5, 在 0.55 一 0.6 取 值 比较 适宜 ) 
k divide = 0.9; 分裂 1 数 ( 取 0~1) 

w= 0.2; 删除 条 件 参 数 


Nc_start = Ne; 

多 调用 Fuzzy ISODATA 函数 

[X,2,U, Nec, L, Dcc, Dccm, Mind, S, Smean, Fstd, T, C,k_delete,Dpc] = FussyISODATA function(data, 
Nc, m, L, Lmax, Nc_all, Udmax, e,a,b, r,f,Avms,k_divide, w) 

[Np, Ngq] = size(data); Np 样本 数目 ; Na 样本 维 数 

名 将 聚 类 结果 在 三 维 图 中 显示 

figure; 


hold on; 
for i=1:Np 
forj = 1:Nc 
if Nc>8 
disp( ' 聚 类 中 心 数 目 大 于 8 个 '); 
else 


switch X(i,1).category 
casel 
plot3(X(i,1). feature(1,1),X(i,1). 


grid on; box; 
plot3(2(j,1). feature(1,1),2(j,1). 


grid on; 
Case2 
plot3(X(i,1). feature(1,1), xX(i,1). 


grid on; 
plot3(2(j,1). feature(1,1),2(j,1). 


grid on; 
Case3 
plot3(X(i,1). feature(1,1), xX(i,1). 


grid on; 
plot3(2(j,1). feature(1,1),2(j,1). 


grid on; 
case 4 
plot3(X(i,1). feature(1,1),X(i,1). 


grid on; 
plot3(2Z(j,1). feature(1,1),2(j,1). 


grid on; 
case5 
plot3(X(i,1). feature(1,1), XxX(i,1). 


grid on; 
plot3(Z(j,1). feature(1,1),2(j,1). 


grid on; 
case6 


plot3(X(i,1). feature(1,1),X(i,1). 


grid on; 
plot3(2(j,1). feature(1,1),2(j,1). 


grid on; 


feature(1,2),X(i,1). feature(1,3), 'bx '); 
和 第 1 类 样本 , 蓝 色 * 


feature(1,2),2(j,1). feature(1,3), 'ko'); 
第 1 类 聚 类 中 心 , 黑 色 o 
feature(1,2),X(i,1). feature(1,3), 'gd'); 
名 第 2 类 样本 ,绿色 萎 形 
feature(1,2),2(j,1). feature(1,3), 'ko'); 
名 第 2 类 聚 类 中 心 , 黑色。 
feature(1,2),X(i,1). feature(1,3), 'rs'); 
名 第 3 类 样本 ,红色 方块 
feature(1,2),2(j,1). feature(1, 3), 'ko'); 
名 第 3 类 聚 类 中 心 , 黑 色 o 
feature(1,2),X(i,1). feature(1,3)，'c+ "'); 
名 第 4 类 样本 ,青色 + 
feature(1,2),2(j,1). feature(1,3), 'ko'); 
名 第 4 类 聚 类 中 心 , 黑 色 o 
feature(1,2),X(i,1). feature(1,3), ‘mx'); 
名 第 5 类 样本 , 品 红 色 x 
feature(1,2),2(j,1). feature(1,3), 'ko'); 
名 第 5 类 聚 类 中 心 ,黑色 o 
feature(1,2),X(i,1). feature(1,3), 'yh'); 
名 第 6 类 样本 ,黄色 六 角 星 


feature(1,2),2(j,1). feature(1,3), 'ko'); 
名 第 6 类 聚 类 中 心 ,黑色 o 


case 7 
plot3(X(i,1). feature(1,1),X(i,1). feature(1,2),X(i,1).feature(1,3), 'k. '); 
多 第 7 类 样本 ,黑色 
grid on; 
plot3(2(j,1). feature(1,1),2(j,1). feature(1,2),2(j,1).feature(1,3), 'ko'); 
第 7 类 聚 类 中 心 ,黑色 o 
grid on; 
case 8 
plot3(X(i,1). feature(1,1),X(i,1). feature(1,2),X(i,1).feature(1,3), 'rp'); 
和 第 8 类 样本 ,红色 五 角 星 
grid on; 
plot3(2(j,1). feature(1,1),2(j,1). feature(1,2),2(j,1). feature(1,3), 'ko'); 
第 8 类 聚 类 中 心 ,黑色 o 
grid on; 
end 
end 
end 
end 


名 显示 方向 轴 名 称 
xlabel( ' 第 一 特征 '); 
Ylabel(' 第 二 特征 '); 
zlabel(' 第 三 特征 '); 
title( ' 程 序 运行 结果 '); 
名 显 示 各 聚 类 中 心 
fori= 1:Nc 
A(i,:) = 2Z(i,1). feature(1, :); 
end 
名 显示 各 样本 所 属 类 别 
fori= 1:Np 
B(i,1) = X(i,1). category; 
End 
function [X,2,U, Nc,L, Dcc, Dccm, Mind, S, Smean,Fstd,T,C,k_delete,Dpc] = 
FussyISODATA_function(data, Nc,m,L, Lmax, Nc_all, Udmax, e,a, b,r,f, Avms, k_divide, w) 
Ln = zeros(Lmax,1); 


[Np, Nq] = size(data); 6 Np 为 样本 数目 ; Nq 为 样本 维 数 
for i=1:Np 
Xx(i,1).feature = [data(i, :)]; 名 将 样本 数据 导入 样 本 结构 体 数组 
end 
当选 取 Nc 个 初始 聚 类 中 心 
fori = 1:Nc 名 选取 前 Nc 个 样本 为 初始 聚 类 中 心 
Xx(i,1).category = i; 名 第 二 个 样本 所 属 类 别 
2Z(i,1). feature = X(i,1).feature; 选取 初始 聚 类 中 心 
Z(i,1).index = i; # 第 并 聚 类 
Z(i,1).patternNum = 1; # 第 并 聚 类 中 样本 数 
end 


计算 所 有 样本 到 各 初始 聚 类 中 心 的 距离 
Dpc = zeros(Nc, Np); 
Forii s Le 

ford = LT:Np 


Dpc(i,j) = sqrt((X(j,1).feature(1,1) - 2Z(i,1).feature(1,1))*2 + (X(j,1) 


.feature(1,2) — 2Z(i,1).feature(1,2))^2 + (X(j,1).feature(1,3) 


end 
end 
计算 初始 隶属 度 和 矩阵 0(0) 


fori= 1:K 


fork = 1:Nc 
if (Dpe(k,j) == 0) & (k~ =i) 
U(k,j) 
elseif (Dpc( 
U(k,j) 
else 
d 


1 区 


党 


end 
end 
U(i,j) = 1/d; 
end 
end 
end 


调用 求 新 的 聚 类 中 心 及 素 属 度 矩 阵 的 函数 


0; 
= (= = 
1 


= d + (Dpc(i,j)/Dpc(k,j))*(2/(m— 1)); 


— 2Z(i,1).feature(1,3))’2); 


%Dpc(i,j) = 0 时,U(i,j)=1 


#%Dpc(ijj =0 且 k~ =i 时 ,alijj) =0 


省 Dpc(i,j) =0 且 k=i 时 ,U(i'J) =1 


名 Dpc(i,j) 一 =0 时 ,计算 隶 
名 属 度 函 数 的 分 母 


计算 隶属 度 


[2,U, Nc, Nc_all,L,Dpc] = FussyISODATA newcentre(X,2,U,Nc,Nc_ all,Np, Ng,e,m,L,Lmax, 
Udmax) 


调用 类 别 调整 函数 ,对 聚 类 结果 进行 合并 、 分 解 或 者 删除 


[2, U, Ne, Dcc, Dccm, Mind，S, Smean, Fstd,T,C,k_ delete] 


Np, Nq, av f, Avms, b, r,k_divide, w) 


= FussyISODATA adjust(X,2,U,Nc, 


类 别 调整 后 ,重新 计算 所 有 样本 到 各 新 聚 类 中 心 的 距离 


Dpc = zeros(Nc, Np); 
fori= 1:Nc 
ors LN 


Dpc(i,j) = sqrt((X(j,1).feature(1,1) 


end 


— 2Z(i,1).feature(1,1))*2 + (x(j,1) 


.feature(1,2) — 2Z(i,1).feature(1,2))*2 + (Xx(j,1).feature(1,3) — 2Z(i,1).feature(1,3))"2); 


end 


类 别 调整 后 ,计算 新 隶属 度 和 矩阵 
U = zeros(Nc, Np); 
fer i = 1 
for j = 1:Np 
if Dpe(i,j) == 0 


if (Dpc(k,j) == 0) & (k~=i) 


%Dpc(i,j)=0 时 ,U(i,j)=1 


SDpc(i,j)=0 且 k~=i 时 ,U(i,j)=0 
WM = ly 
elseif (Dpc(k,j) == 0) & (k==i) 
%Dpc(i,j)=0 且 k=i 时 ,U0(i,j)=1 
Uk,j) = 1; 
else 
d= d+ (Dpc(i,j)/Dpc(k,j))*(2/(m- 1)); 
Dpc(i,j) 一 = 0 时 ,计算 隶属 度 函数 的 分 母 
end 
end 
Uij) = lq; 计算 隶属 度 
end 
end 
end 
s# 类 别 调 整 后 ,调用 求 新 的 聚 类 中 心 及 隶属 度 矩 阵 的 函数 ,重新 计算 聚 类 中 心 
[2Z,U, Nc, Nc_all,L,Dpc] = FussyISODATA newcentre(X,2,U,Nc,Nc_all,Np, Nq, ev my 
Limax, Udmax) 
重新 划分 样本 类 别 
fori= 1:NW 
Umax(1,i) = max(U(:,i)); 多 找 出 各 样本 对 所 有 聚 类 中 心 隶 属 度 的 最 大 值 


end 
fori= 1:Nc 

2Z(i,1).patternNum = 0; 名 初始 化 各 类 包含 的 样本 数 
end 


fori= 1:Np 
[i1,i2] = find(U(:,i)== Umax(1, i)); 
多 找 出 各 样本 对 所 有 聚 类 中 心 隶 属 度 的 最 大 值 在 隶属 度 矩 阵 中 的 位 园 
if size(il) ==1 
名 各 样本 对 所 有 聚 类 中 心 隶 属 度 的 最 大 值 只 有 1 个 
X(i,1).category = il; 
第 个 样本 所 属 的 类 别 
else 
多 各 样本 对 所 有 聚 类 中 心 隶 属 度 的 最 大 值 不 只 1 个 
il = 这 (fix(randx size(i1) +1)); 
% 从 多 个 隶属 度 相同 的 聚 类 中 心中 ,随机 选取 一 类 
X(i 1).category = il; 


第 个 样本 所 属 的 类 别 
end 
end 
function [2Z,U, Nc,Nc all,L,Dpc] = FussyISODATA newcentre(X,2,U,Nc,Nc all, Np,Nq,e, 
my L, Lmax, Udmax) 


while Udmax > e 
# 重 复 计算 新 的 聚 类 中 心 和 隶属 度 矩 阵 , 至 满足 收敛 条 件 
名 判断 是 否 超过 最 大 迭代 次 数 ,超过 则 跳出 子 函数 
if L> Lmax 
return; 
end 
Dpc = zeros(Nc, Np); 名 初始 化 各 样本 点 到 各 聚 类 中 心 的 距离 矩阵 
名 计算 新 的 聚 类 中 心 
Ul = Um; 名 求 隶 属 度 答 阵 各 值 的 mn 次 方 


A = zeros(1,Nq); 名 定义 一 个 中 间 变 量 , 全 零 矩 阵 
B = sunm((U.^m)'); 包 求 来 属 度 矩阵 各 值 的 m 次 方 后 ,各 行 的 和 
fori= 1:N 
forj= 1:Np 
A(1,:) = A(1,:) + Ul(i,j)*X(j).feature(1, :); 
名 求 聚 类 中 心 函数 的 分 子 
end 
Z(i,1).feature(1,:) = A(1,:)./B(1,i); 
求 新 的 聚 类 中 心 
A = zeros(1,Nq)7 
end 
Up=U; Up 为 第 工 次 隶属 度 矩 阵 
计算 所 有 样本 到 各 聚 类 中 心 的 距离 
Tor 4 = Ts: 
forj= 1:Np 


Dpc(i,j) = sqrt((X(j,1).feature(1,1) - 2Z(i,1).feature(1,1))*2 + (x(j, 
1).feature(1,2) — 2Z(i,1).feature(1,2))*^2 + (X(j,1).feature(1,3) — 2Z(i,1).feature(1,3))"2); 


end 
end 
名 计算 第 +1 次 隶属 度 矩 阵 0(L+1) 
fori= 1:Rc 
forj= 1:Np 
if Dpc(i,j) == 0 
Ui,j) = 1; 0 为 第 L+1 次 隶属 度 卸 阵 
else 
= 0; 
fork = 1:Nc 
证 (Dpc(k,j) == 0) & (k~ =i) 
Uk,j) = 0; 
elseif (Dpc(k,j) == 0) & (k==i) 
Uk,j) = 1; 
else 
d= d+ (Dpc(i,j)/Dpc(k,j))*(2/(m— 1)); 
end 
end 
Uij) = 1/d; 
end 
end 
end 
Udmax = max(max(U— Up)); 计算 收敛 条 件 值 
下 = 三 +1; 第 迭代 次 数 +1 
Nc all(L,1) = Nc; 名 记录 第 工 次 迭代 的 聚 类 中 心 数 
end 


function [2Z,U, Nc,Dcc,Dccm, Mind, S$,Smean, Fstd,T,C,k delete] = 
FussyISODATA adjust(X,2,U,Nc,Np,Ng,a,f,Avms,b,r,k divide,w) 


名 变量 初始 化 

Dcc = zeros(Nc, Nc); 名 两 两 聚 类 中 心 之 间 的 距离 矩阵 
Dcem = 0; 两 两 聚 类 中 心 之 间 的 距离 的 平均 值 
Mind = 0; 外 合并 阔 值 


S = zeros(Nc, Nq); 名 各 类 在 每 个 特征 方向 上 的 模糊 化 标准 差 甜 阵 


Smean = 0; 多 模 糊 化 标准 差 平 均值 

Fstd = 0; 外 分 解 阔 值 

T = zeros(Nc,1); 多 各 类 超过 隶属 度 阔 值 王 的 样本 数 矩 阵 
C = zeros(Nc,1); 多 各 类 的 聚集 程度 矩阵 

k delete = 0; 多 删除 阅 值 

名 1. 合并 

多 计算 各 聚 类 中 心 之 间 的 距离 Dcc(i,j) 

DccSum = 0; # 所 有 聚 类 中 心 距 离 的 和 


for'i = 1(Ne=1) 
forj = (i+1):Nc 
两 两 聚 类 中 心 之 间 的 距离 
Dec(i,j) = sqrt((2(j,1). feature(1,1) — 2(i,1).feature(1,1))*2 + ((2(j,1) 
.feature(1,2) — 2Z(i,1).feature(1,2))*2 + ((2(j,1).feature(1,3) — 2Z(i,1).feature(1,3))"2))); 
DccSum = DccSum + Dcc(i,j); 多 所 有 聚 类 中 心 距 离 的 和 


end 
end 
多 计算 各 聚 类 中 心 之 间 的 平均 距离 Dccm 
Ncc = nchoosek(Nc,2); 名 两 两 聚 类 中 心 的 组 合 数 
Dccm = DccSum/Nec; 名 两 两 聚 类 中 心 之 间 的 距离 的 平均 值 
当 计 算 合 并 阔 值 


Mind = Dccmx (1—1/(Nc “a)); 
多 根 据 合 并 阔 值 判断 ,合并 聚 类 中 心 ,得 到 新 的 聚 类 中 心 


Y= 2; 中 间 变 量 
flagl = 0; 名 中 间 标 志 
Nc _combine = Nc; 名 合并 后 的 聚 类 中 心 数 
N_ combine = 0; 名 合并 次 数 


fori= 1:(Nc—-1) 
for's = (和 +): 
if Dcc(i,j) < Mind 
两 聚 类 中 心 之 间 的 距离 小 于 合并 阅 值 时 ,合并 这 两 个 聚 类 中 心 
ki = sum(U(i,:)); 
kj = sum(U(j,:)); 
Y1(i). feature(1,:) = (kix2(i,1).feature(1,:) + kj*2(j,1) 


.feature(1,:))/(ki + kj); 名 合并 后 的 聚 类 中 心 
Y1(j). feature(1, :) = [zeros(1,Nq)]; 
名 被 合并 的 聚 类 中 心 赋 0 


N_combine = N_combine +1; 名 合 并 次 数 +1 
Nc_combine = Nc_combine -1; 类别 数 一 1 
if (Nc_combine <= 2) | (Nc _combine >= 8) 


名 分 类 数 不 满 足 要 求 时 ,跳出 循环 
flagl = 1; 
2 = Y1; 
break; 
end 
end 
end 
if flagl == 1 
break; 
end 


end 


#2. 分 解 
名 计算 模糊 化 方差 
S_mid = 0; 中 间 变 量 
fori= 1: 取 
for j = 1:Mq 
forp= 1:Np 
Smid = Smid + (U(i,p)^b) * ((X(p,1).feature(1,j)—2Z(i,1) 
.feature(1,j))*2); 
模糊 化 方差 的 分 子 
end 
S2(i,j) = Smid/(Np—1); 模糊 化 方差 
S(i,j) = sqrt(s2(1,j)); 模糊 化 标准 差 
end 
end 
计算 全 体 模糊 化 方差 的 平均 值 
Smean = sum(sum(S))/(NqGx Nc); 
外 计算 分 解 阔 值 
Fstd = Smeanx*x (Nc “r); 
检查 各 类 的 聚集 程度 
Sum = zeros(Nc,1); 多 聚集 程度 C 的 分 子 
fori= 1:Nc 
forp= 1:Np 
if U(i,p)>f£ 
t(i,p) = 1; 
else 
t(i,p) = 0; 
end 
T(i,1) = T(i,1) + t(i,p); 计算 聚集 程度 C 的 分 母 
Sum(i,1) = Sum(i,1) + t(i,p) x*0(i,p); 名 计算 聚集 程度 C 的 分 子 
end 
end 
C = Sum./T; 多 计算 聚集 程度 矩阵 
当 根 据 平均 分 解 阔 值 判断 是 否 进行 分 解 
Nc_divide = Nec; 多 分 解 后 的 聚 类 中 心 数 
Ndivide = 0; 多 分 解 次 数 
flag2 = 0; 中 间 标 志 
Y2 = 2 
For i = > 
if C(i,1)<= Avms 
fer = La3 
if S(i,j)> Fstd 
Ndivide = N divide+1; 分解 次 数 + 1 


2Zdivl = 2Z(i,1).feature(1, :); 
2Zdiv2 = 2Z(i,1).feature(1, :); 
2Zdivi(i,j) = Z(i,1).feature(1,j) + k divide*x S(i,j); 
名 分 解 后 ,新 的 聚 类 中 心 1 
2Zdiv2(i,j) = 2Z(i,1).feature(1,j) - k divide* S(i,j); 
名 分 解 后 ,新 的 聚 类 中 心 2 
Y2(i 1). feature(1,:) = [2Zdivi(1,:)]; 
分解 后 ,新 的 聚 类 中 心 1 写 和 人 聚 类 中 心 结构 体 数组 第 i 项 
Y2(Nc +N divide,1).feature(1,:) = [2Zdiv2(1,:)]; 
多 分 解 后 ,新 的 聚 类 中 心 2 写 人 聚 类 中 心 结构 体 数组 第 Nc + N_divide 项 
Nc divide = Nc divide+1; 分 解 后 的 聚 类 中 心 数 


if (Nc_divide <=2) | (Nc_divide>=8) % 分 类 数 不 满 足 要 求 时 ,跳出 循环 
flag2 = 1; 当中 间 标 志 为 1, 跳 出 循环 


break; 
end 
end 
end 
end 
if flag2 == 1; 中 间 标 志 为 1, 跳 出 循环 
break; 
end 
end 
3. 删除 
Nc delete = Nc; 多 删除 后 的 聚 类 中 心 数 
N delete = 0; #% 删除 次 数 
flag3 = 0; 中 间 标 志 
Y3 = 2; 
k_delete = wx Np/Nc; 
fori= 1:Nc 
forj = 1:Nq 
if (T(i,1)<=k_delete) | (C(i,1)<= Avms &max(S(i,:))<=Fstd) 
当 删 除 条 件 
Y3(i1).feature(1, :) = [zeros(1,Nq)]; %$ 人 删除 的 聚 类 中 心 特征 值 赋 0 
N delete = N delete+1; 删除 次 数 +1 
Nc_delete = Nc delete—1; 删除 后 的 聚 类 中 心 数 一 1 
if (Nc_delete<=2) | (Nc_delete>=8) 分 类 数 不 满 足 要 求 时 ,跳出 循环 
flag3 = 1; 多 中间 标志 为 1, 跳 出 循环 
break; 
end 
end 
end 
if flag3 == 1; 当中 间 标 志 为 1, 跳 出 循环 
break; 
end 
end 
类 别 调整 后 的 聚 类 中 心 特征 值 
Y4 = 2; 
or = LN 


if Y1(i,1).feature(1,:)~ = Y4(i,1). feature(1, :) 
2Z(i,1).feature(1,:) = Y1(i,1).feature(1,:); 
elseif Y2(i,1).feature(1,:)~ =Y4(i,1).feature(1, :) 
Z(i,1).feature(1,:) = Y2(i,1).feature(1,:); 
elseif Y3(i,1).feature(1, :)~ =Y4(i,1).feature(1,:) 
Z(i,1).feature(1,:) = Y3(i,1).feature(1,:); 
end 
end 
if Nc_divide > Nc 
fori = Nc+1:Nc divide 
Z(i,1).feature(1,:) = Y2(i,1).feature(1,:); 
end 


end 
了 
Nl = 0; 


已 删除 的 聚 类 中 心 个 数 


fori= 1:Nc divide 
if Y5(i,1). feature(1, :) == [zeros(1, Nq)] 


for 这 = i-Nl:Nc divide-N1 删除 特征 值 为 0 的 聚 类 中 心 
2Z(il,1).feature(1,:) = Y5(il+N]1,1).feature(l, :); 
end 
NI = N+1; 
end 
end 
各 类 别 调整 后 的 分 类 数 


Nc = Nc — N combine + N divide - N delete; 


程序 运行 完 之 后 ,出 现 如 图 5-32 所 示 的 59 组 数据 分 类 图 。 


Oasl 


RS 8 RA IG 0 


程序 运行 结果 


图 5-32 测试 样本 分 类 图 


MATLAB 程序 的 运行 结果 如 下 : 
A= 
1.0e+03 * 
1.7443 hy 1.9495 
0.3120 352136 2.2506 
2.2940 3.1569 1.0036 
L2553 1.8340 2.9638 
B” = 


1 一 27 列 


y 2 1 4 4 4 I 3 2 2 这 | 3 
3 4 Ee 流 ， jl 1 机 要 3 4 1 六 
28 一 54 列 

2 2 六 1 4 ht 3 3 I 4 下 了 
4 地 这 如 2 jl 3 Kf 1 T 4 4 

55 一 59 列 

2 4 1 p 


其 中 A 为 聚 类 中 心 ,B' 为 分 类 结果 。 


5.8.5 结论 


模糊 ISODATA 聚 类 分 析 方 法 对 特性 比较 复杂 而 人 们 又 缺少 认识 的 对 象 进 行 分 类 ,可 
以 有 效 地 实施 人 工 干预 ,加 入 人 脑 思 维 信息 ,使 分 类 结果 更 符合 客观 实际 ,给 出 相对 的 最 优 
分 类 结果 ,因而 具有 一 定 的 实用 性 。 

然而 由 于 该 方法 在 计算 中 需要 人 为 选择 和 确定 不 同 的 参数 ,使 得 该 方法 在 数学 理论 上 
显得 不 够 严谨 。 参 数 的 选取 也 缺乏 理论 依据 ,选取 最 合适 的 参数 也 非常 困难 。 这 些 参 数 的 
设 定 问题 ,直接 影响 到 模糊 分 类 的 分 类 精度 和 算法 实现 ,使 得 模糊 ISODATA 算法 在 实际 
应 用 中 受到 限制 。 


由 SU 模糊 神经 网 络 


随 着 模糊 信息 处 理 技术 和 神经 网 络 技术 研究 的 不 断 深入 ,将 模糊 技术 与 神经 网 络 技术 
进行 了 有 机 融合 ,构造 出 一 种 可 “自动 ”处 理 模糊 信息 的 神经 网 络 一 一 模糊 神经 网 络 。 


5.9.1 模糊 神经 网 络 的 应 用 背景 


从 模糊 信息 处 理 的 角度 来 讲 ,自从 模糊 集合 理论 提出 至 今 , 有 关 模 糊 信息 处 理 的 理论 和 
应 用 研究 已 取得 了 重大 的 发 展 , 各 种 基于 模糊 逻辑 和 模糊 信息 处 理 技术 的 智能 产品 ,已 经 走 
进 各 个 工业 控制 领域 及 人 们 的 消费 生活 中 。 但 是 作为 模糊 信息 处 理 的 核心 “模糊 规则 的 自 
动 处 理 ” 及 “模糊 变量 基本 状态 隶属 度 函数 的 自动 生成 "问题 , 却 一 直 是 困扰 模糊 信息 处 理 技 
术 进 一 步 推 广 的 两 大 难题 。 在 过 去 ,这 些 工 作 主 要 靠 开发 者 的 智慧 和 经 验 来 进行 。 人 们 根 
据 自己 的 经 验 ,建立 一 套 实用 的 规则 及 隶属 函数 ,并 从 实践 中 检验 ,看 与 实际 系统 的 性 能 要 
求 是 否 符合 ,如 果 不 符 , 则 通过 试探 的 方法 对 规则 和 隶属 函数 进行 调整 ,直到 满足 性 能 要 求 
为 止 。 但 是 正确 的 调整 并 不 是 一 件 容 易 的 事 , 这 一 工作 往往 需要 很 长 时 间 和 反复 探索 才能 

然而 ,以 非 线 性 大 规模 并 行 处 理 为 主要 特征 的 神经 网 络 技术 的 出 现 ,凭借 其 强大 的 自学 
习 功 能 ,帮助 模糊 推理 系统 解决 了 “模糊 规则 的 自动 处 理 ” 及 “模糊 变量 基本 状态 隶属 度 函 数 
的 自动 生成 ?问题 。 本 节 将 采用 模糊 神经 网 络 离线 的 从 学 习 样 本 数据 中 自动 提取 参数 优化 


后 的 模糊 参考 模型 ,实现 模糊 推理 系统 合理 、 正 确 的 建 模 。 


5.9.2 模糊 神经 网 络 算法 的 原理 


模糊 推理 系统 类 型 的 基本 结构 是 一 个 模型 , 它 将 输入 特性 映射 为 输入 隶属 函数 输入 隶 
属 函 数 映射 为 规则 、 规 则 映射 为 一 组 输出 特性 、 输 出 特性 映射 为 输出 隶属 函数 ,输出 隶属 函 
数 映射 为 一 个 单 值 输出 或 与 输出 相关 的 决策 。 因 此 ,输入 输出 变量 空间 的 划分 变量 模糊 集 
隶属 函数 的 确定 以 及 规则 的 个 数 、 形 式 和 各 模糊 算 子 AND/OR 等 的 定义 ,对 于 模糊 推理 系 
统 的 建 模 至 关 重 要 。 

假设 要 将 模糊 推理 应 用 于 一 个 系统 ,对 该 系统 我 们 已 经 收集 了 用 于 建 模 、 模 型 跟随 或 模 
式 识别 的 输入 输出 数据 。 但 是 ,在 某 些 情况 下 ,不 能 根据 数据 就 辨识 出 隶属 函数 的 形状 及 决 
定语 言 变 量 的 个 数 。 即 使 对 给 定 的 隶属 度 函 数 也 不 能 任意 选择 参数 ,参数 的 选择 应 使 隶属 
度 函 数 适应 输入 /输出 数据 。 这 时 ,就 需 借助 模糊 逻辑 工具 箱 中 的 ANFIS 的 被 称 为 神经 自 
适应 学 习 技术 选取 最 优 的 参数 。 


1. ANFIS 编辑 器 简介 


神经 自 适应 学 习 技 术 为 模糊 建 模 过 程 学 习 一 个 数据 集 的 信息 提供 了 一 种 方法 ,为 计算 
隶属 度 函数 参数 最 好 允许 相关 的 模糊 推理 系统 跟踪 给 定 的 输入 /输出 数据 (及 自动 调节 隶属 
度 函 数 的 参数 )。 完 成 这 一 隶属 度 函 数 参数 调节 的 模糊 馆 辑 工具 箱 的 函数 是 anfis。 可 以 从 
命令 行 或 通过 ANFIS 编辑 器 GUI 调用 anfis。 为 了 操作 简捷 ,这 里 选择 ANFIS 编辑 器 
GUI 来 实现 ANFIS 推理 。 

自 适 应 神经 模糊 推理 系统 (adaptive neuro-fuzzy inference system,ANFIS) ,通过 一 给 
定 的 输入 /输出 数据 集 , 利 用 ANFIS 编辑 器 GUI 构建 一 个 模糊 推理 系统 (FIS) ,与 隶属 度 函 
数 相关 的 参数 将 通过 学 习 过 程 来 改变 。ANFIS 或 者 单独 使 用 反 向 传播 算法 或 者 结合 最 小 
二 乘法 一 起 进行 隶属 度 函 数 参数 的 预测 与 优化 。 

ANFIS 比 模糊 推理 系统 复杂 ,并 且 并 不 是 对 所 有 的 模糊 推理 系统 都 可 用 。 特 别 地 ， 
ANFIS 只 支持 Sugeno 型 系统 ,并 且 还 要 满足 : 

(1) 一 阶 或 零 阶 Sugeno 型 系统 。 

(2) 单 输出 ,使 用 加 权 平 均 反 模糊 化 法 得 到 (线性 或 恒 值 输出 隶属 度 函 数 ) 。 

(3) 每 条 规则 的 权 值 为 1 。 

如 果 建 模 的 FIS 结构 不 遵守 这 些 约束 将 产生 错误 。 

进一步 ,ANFIS 不 能 接受 基本 模糊 推理 允许 的 所 有 定制 选项 , 即 不 能 生成 自己 的 隶属 
度 函 数 和 反 模糊 化 函数 ,只 能 使 用 它 所 提供 的 一 种 。 

下 面 给 出 了 一 种 用 神经 网 络 实现 的 基于 Takagi-Sugeno 型 模糊 系统 的 结构 ,将 神经 网 
络 的 学 习 功 能 引入 到 模糊 推理 系统 中 ,通过 自学 习 的 过 程 来 修正 隶属 度 函 数 ,以 提高 系统 的 
自 适应 能 力 , 达 到 满意 的 期 望 值 。 


2. Takagi-Sugeno 模型 
Takagi-Sugeno 型 模糊 推理 计算 简单 ,易于 数学 分 析 。 与 其 他 类 型 的 模糊 推理 方法 不 


同 ,Takagi-Sugeno 型 模糊 推理 将 去 模糊 化 也 结合 到 模糊 推理 中 ,其 输出 为 精确 量 。 一 阶 
Takagi-Sugeno 型 模糊 规则 表达 及 计算 公式 如 下 


R': IFxiISAy ANDz:1ISAnx ANDzsISAs THENyISf: (5-58) 
pi = Ay(z1) * Au(x2) » As (zs) (5-59) 
琅 = 天 (5-60) 
Dn 
k=1 
y= 2 (5-61) 


其 中 Ay ,Ax ,As 为 模糊 变量 ,Ay (zi),Ax(zz),Asx (zs) 为 隶属 函数 , 广 为 常数 。 
设 j==1,2,…,jo; 上 二 1,2,… ,ko; /二 1,2,… ,Lo。jo ,ko ,lo 是 模糊 子 集 个 数 , 则 p= 二 jo。。* 
ko。Lo 为 模糊 规则 最 大 条 数 。 若 取 jo 三 二 4o 二 3, 则 有 p 二 27。 


3. 模糊 神经 网 络 的 结构 与 学 习 算法 


利用 ANFIS 构造 的 模糊 神经 网 络 结构 如 图 5-33 所 示 。 该 网 络 由 前 件 网 络 和 后 件 网 络 
两 部 分 组 成 ,前 件 网 络 由 前 4 层 构 成 ,用 来 匹配 模糊 规则 的 前 件 , 后 件 网 络 简化 为 最 后 一 层 ， 
用 来 产生 模糊 规则 的 后 件 。 


图 5-33 利用 ANFIS 构造 的 模糊 神经 网 络 结构 


网 络 由 5 层 构 成 ,第 1 层 为 网 络 的 模式 输入 层 , 输 入 节点 是 线性 的 ,由 3 个 神经 元 组 成 ， 
将 网 络 的 输入 信号 zx 一 [zyzayzs]7 传送 到 下 一 层 中 。 

第 2 层 为 网 络 的 隐 层 ,计算 各 输入 分 量 属于 语言 变量 值 的 模糊 集 的 隶属 函数 ji, 其 中 
Hi 一 pw (XD (i 三 1.2 sn; J 二 1,2,… ,mi)。nn 是 输入 量 维 数 3,m; 为 输入 量 的 模糊 分 割 数 
5; 隶属 函数 为 


模式 识别 与 人 工 智能 (基于 MATLAB) 


a 一 exp| — (5-62) 
加 


式 中 ,cy 和 os 分 别 表 示 隶 属 函 数 的 中 心 和 宽度 。 
第 3 层 的 每 一 个 节点 代表 一 条 模糊 规则 ,用 来 匹配 模糊 规则 的 前 件 , 计 算出 每 条 规则 的 


适用 度 。 即 
a 一 min(pe yp sp}, j=1,2,,m; m= Tm: (5-63) 
i=1 
ii € {1l,2,.° m1}, iz € {ls2y° m2}, is € {1,2,° 73} (5-64) 


该 层 的 节点 总 数 N3 = m, 对 于 给 定 的 输入 ,只 有 在 输入 点 附近 的 语言 变量 值 才 有 较 大 
的 隶属 度 值 ,远离 输入 点 的 语言 变量 值 的 隶属 度 或 者 很 小 或 者 为 0。 当 隶属 度 很 小 (例如 小 
于 0.05) 时 近似 取 为 0。 
第 4 层 的 节点 数 与 第 3 层 相 同 , 即 N4 二 N3==m, 它 所 实现 的 是 归 一 化 计算 , 即 
a 一 @i/m ai， j= 1,2，…，7 (5-65) 
第 5 层 是 后 件 网 络 ,用 于 计算 每 一 条 规则 的 后 件 , 即 
vi = pi pinxit 二 par 一 pri j= 1,2,° ,mm (5-66) 
每 条 规则 的 后 件 在 简化 结构 中 变 成 了 最 后 一 层 的 连接 权 ,系统 的 输出 为 
v= Way (5-87) 
可 见 " 是 各 规则 后 件 的 加 权 和 ,加 权 系数 为 各 模糊 规则 归 一 化 的 适用 度 ,也 即 前 件 网 络 
的 输出 用 作 后 件 网 络 的 连接 权 值 。 
假设 各 输入 分 量 的 模糊 分 割 数 是 预先 确定 的 ,那么 需要 学 习 的 参数 主要 是 后 件 网 络 的 
连接 权 pi (三 1,2,…,m; i 二 0,1,…,n) 以 及 前 件 网 络 第 二 层 各 节点 隶属 函数 的 中 心 值 
二 12 m3 i 二 0,1,… symmi) 和 宽度 oj (j= 二 1,2,*… ,ms i 二 0,1,*… ,mi)。 
设 误差 代价 函数 为 


E= 计 2) (ou 一 加 (5-68) 
i=1 


式 中 ,ua 和 分 别 表示 期 望 输出 和 实际 输出 。 
下 面 首先 给 出 参数 外 的 学 习 算 法 
d 已 oaE dv 9 


3 A Di 3 Var — VE) ari (5-69) 

Pe i aE 六 a 

pil(l+1)= pi(l) B37 Pi(l)+B Va — ve) ri (5-70) 
ap 


式 中 ,j 二 1,2,… ,m3 i 一 0,1,… sn; 上 二 1,2,…,r; p>0 为 学 习 效率 。 
这 时 可 将 参数 旋 固 定 ,利用 误差 反 传 算法 来 计算 2 和 3 ,再 利用 梯度 寻 优 算法 来 调 


节 性 和 6o5 ,可 得 所 求 一 阶梯 度 为 
aE aE af 69 2 — try 
gcs afy acz . og? 


(5-71) 


aE aE af? y 2(zi— ca) 


0 5-72) 
90s 9f¥ am 六 Og3 和 
最 后 可 给 出 参数 调整 的 学 习 算 法 为 
GCTD = 0D-pE, i=1,2, ms j = 0 um (5-73) 
C5 
ot) = 6D) -BE, i=1,2, mj = 0 s,m (5-74) 
Boy 


其 中 ,8 二 0 为 学 习 效率 。 
在 设计 中 使 用 BP 神经 网 络 训练 系统 ,其 学 习 的 主要 参数 为 第 2 层 各 节点 隶属 函数 的 
转折 点 ,并 依据 输出 误差 优化 隶属 度 函 数 。 


5.9.3 模糊 神经 网 络 分 类 器 的 MATLAB 实现 


1. 样本 数据 的 标准 化 
为 提高 运算 速率 及 误差 精度 ,需要 对 训练 样本 及 测试 样本 进行 数据 的 标准 化 。 样 本 数 
据 的 标准 化 只 对 样本 指标 数据 进行 预 处 理 , 使 其 特征 值 映射 到 [0,1] 区 间 上 。 设 有 /个 样 
本 zz1 ,zs，… ,zy, 每 个 样本 xz; 具有 7 个 样本 指标 zi1 ,zo，…,z,; zx 表示 第 i 个 样本 的 第 j 个 
指标 ,f 个 样本 的 n 个 指标 可 用 表 5-6 表示 。 
表 5-6 样本 指标 数据 


指 标 1 zz za 翅 
Tl Tl 12 13 | 
Te T2l T22 T23 T2 
Ep Eg Xp 工 13 i Tn 


了 个 样本 第 j 个 指标 的 平均 值 2 及 标准 差分 别 为 


均值 : 全 -753 
标准 差 : Si 一 3 (5-76) 
原始 数据 标准 化 为 : = (5-77) 
运用 极 值 标准 化 值 公式 ,将 标准 化 数据 压缩 到 L0,1] 内 , 即 

一 3 (5-78) 


der— Sis 
式 中 ,zimn 和 zjmwx 分 别 表示 zy ,x5 ,…，z5 中 最 小 值 和 最 大 值 ; zs 为 标准 化 后 的 指标 ,标准 
化 后 的 样本 如 表 5-7 所 示 。 


表 5-7 标准 化 后 样本 


样 本 号 特征 向 量 

Record_ #1 0. 5866 0.0613 0.628 
Record #2 0.1194 0.7945 0.6393 
Record #3 0. 5924 0.0493 0. 3306 
Record_ #4 0. 2874 0.0467 0.7192 
Record_ #5 0.068 0.7802 0.4952 
Record_#6 0.292 0.2465 0.856 
Record_#7 0. 6083 0.0135 0.5494 
Record #8 0.7959 0.5193 0.2956 
Record_#9 0.129 0.8842 0.5453 
Record_#10 0.1106 0.9974 0.6505 
Record_#11 0.529 0.0903 0.405 
Record_#12 0.0277 0.9516 0.6367 
Record_#13 0. 1626 0.908 0. 5605 
Record_#14 0.7772 0.9258 0 
Record_#15 0.7072 0.8412 0.0164 
Record_#16 0.4768 0.1135 0.7552 
Record_#17 0. 6227 0.1877 0.5709 
Record_#18 0.7457 0.8759 0.2252 
Record_#19 1 0.8762 0.0428 
Record_#20 0.5705 0.1611 0.5312 
Record_#21 0.5663 0.0097 0.4015 
Record_#22 0.95 0.7581 0.4893 
Record_#23 0.0508 0.7931 0. 6053 
Record_#24 0.6972 0.853 0.2436 
Record_#25 0. 4873 0.0439 0.9687 
Record_#26 0.5563 0.0811 0.3493 
Record_#27 0. 1086 0.7891 0.6425 
Record_#28 0.0913 0.7988 0.5244 
Record_#29 0.073 0.7896 0.5794 
Record_#30 0.5738 0.043 0.5176 
Record_#31 0.6338 0.1579 0.4859 
Record_#32 0. 2884 0.4038 0.675 
Record_#33 0.6179 0.0811 0.361 
Record_#34 0. 1493 0.8919 0.5527 
Record_#35 0.8037 0.9295 0.1485 
Record_#36 0.7686 1 0.1387 
Record_#37 0.6016 0.0212 0.5826 
Record_#38 0.0598 0.8793 0.6446 
Record_#39 0.5027 0.2677 0.6802 
Record_#40 0.5378 0.1892 0.5371 
Record_#41 0.5384 0.1889 0.3673 
Record_ #42 0.4168 0.1336 0.9808 


续 表 
样 本 号 特征 向 量 
Record_ 并 43 0.7905 0. 5623 0. 3593 
Record_#44 0. 1128 0. 9051 0. 6205 
Record_#45 0.7249 0. 4904 0.0189 
Record_#46 0.1375 0. 804 0. 5139 
Record_#47 0.5071 0 0. 4789 
Record_#48 0. 109 0. 8902 0. 5069 
Record_#49 0.7447 0. 8512 0. 1351 
Record_#50 0.755 0. 7896 0. 2577 
Record_#51 0.532 0. 1012 0. 6507 
Record_#52 0. 6627 0. 0198 0.4389 
Record_#53 0. 5029 0. 2078 1 
Record_#54 0.3765 0.0195 0.8109 
Record_#55 0 0. 9817 0. 5432 
Record_#56 0. 4258 0. 1837 0.7313 
Record_#57 0. 6079 0.0877 0.483 
Record_#58 0. 6131 0. 1923 0. 6053 
Record_#59 0. 6279 0.1172 0. 4522 


2. 建立 BP 神经 网 络 
BP 神经 网 络 的 MATLAB 程序 代码 如 下 : 


function f= bpfun() 

$% Neural Network—bpfun.m 
输入 矩阵 的 范围 (数据 源 ) 

P= [20 3000;1400 3500;500 3500; ]; 
创建 网 络 

net = newff(P, [6 1], {'tansig' 'purelin'}); 
名 初始 化 神经 网 络 

net = init(net); 

两 次 显示 之 间 的 训练 步 数 ,默认 为 25 
net. trainParam. show = 50; 

名 1r 不 能 选择 太 大 , 太 大 了 会 造成 算法 不 收敛 , 太 小 了 会 使 训练 时 间 太 长 
一 般 选 择 在 0.1 一 0.01 

训练 速度 

net. trainParam. lr = 0.05; 

% 训练 次 数 ,默认 为 100 

net. trainParam. epochs = 2000; 

名 训练 时 间 , 默认 为 inf, 表示 训练 时 间 不 限 
net. trainParam. time = 5000; 

训练 的 目标 ,默认 为 0 

net. trainParam. goal = 0.001; 


名 建立 源 数据 的 矩阵 
SourceDataConvert = importdata('bp train sample data.dat'); 
SourceData = SourceDataConvert' 
TargetConvert = importdata( 'bp train _ target data. dat'); 
Target = TargetConvert' 
名 神经 网 络 训练 
net = train(net, SourceData, Target) 
和 显示 训练 后 的 各 层 权重 
matl = cell2mat(net. IWN(1,1)) 
mat2 = cell2mat (net. LW(2,1)) 
%mat3= cell2mat(net. LN(3,2)) 
名 读 取 仿真 文件 数据 
simulate data convert = importdata( 'bp_simulate data. dat'); 
simulate data= simulate data convert'; 
result = sim(net, simulate data) 
result = result' 
grid; 
Title('BP 神经 网 络 : 训练 次 数 -输出 误差 对 应 关系 图 '); 
XLabel( ' 训 练 次 数 '); 
YLabel( ' 误 差 值 '); 
名 打开 存储 仿真 结果 的 文件 ,a 表示 追加 结果 ,w+ 表示 清除 原 有 内 容 后 读 或 写 
fid= fopen('result. dat', 'w+ '); 
if fid== -1 
disp( 'file open error') 
fclosed(fid); 
return; 
else 
end 
仿真 的 样本 数 
simulate_ num = 30; 
存储 结果 到 文件 中 
for i=1:1:simulate num 
fprintf(fid,'%f£',result(i)); 
Fpvintfl fid Son, 
end 
入 换行 输入 
Fprintf(fid, "Sa\r\a, 7 
%fprintf(fid, '%f£',20); 
名 关闭 文件 
fclose(fid); 
名 可 以 把 结果 文件 的 数据 读 出 进行 操作 
matrix = importdata( 'result. dat'); 


由 BP 网 络 分 出 类 的 测试 样本 将 被 用 于 后 面 的 检验 。 


3. 利用 ANFIS 编辑 器 GUI 建 模 过 程 


在 MATLAB 命令 行 键 和 人 anfisedit, 进 入 ANFIS 编辑 器 的 GUI 图 形 编辑 环境 ,如 图 5-34 
所 示 。 


5-34 ANFIS 编辑 器 GUI 图 形 界面 


选择 给 定 的 已 分 类 的 数据 作为 训练 样本 ,选择 利用 BP 神经 网 络 分 出 类 的 测试 样本 作 
为 检验 样本 ,然后 选中 单 选 按钮 Grid partition , 单 击 Generate FIS, 即 可 出 现 生成 一 个 基于 
Sugeno 模型 的 FIS 的 界面 ,如 图 5-35 所 示 。 选 择 输入 Number of MFs 值 为 5, 设置 MF 
Type 为 gaussmf( 高 斯 型 ) ,选择 输出 为 constant, 单 击 OK 按钮 即 可 生成 一 个 FIS, 如 图 5-36 
所 示 。 


图 5-35 建立 的 Sugeno 型 的 模糊 推理 系统 


图 5-36 设置 输入 变量 函数 的 个 数 .类 型 及 输出 类 型 
单 击 Structure 可 以 观察 模糊 神经 网 络 的 结构 ,如 图 5-37 所 示 。 


Anfis Wodel Structure 


S0000000000 80000908 


5-37 神经 网 络 的 结构 图 


选择 Optim. Method 为 backpropa, Error Tolerance 为 0. 001,Epochs 为 1300 进行 训 
练 , 即 可 通过 神经 网 络 对 生成 的 FIS 进行 训练 。 通 近 均 方 根 误差 曲线 图 如 图 5-38 所 示 , 当 
训练 次 数 为 690 时 ,误差 降 到 约 为 0. 0001 。 

训练 样本 经 过 FIS 训练 后 ,其 输出 散 点 图 如 图 5-39 所 示 。 

使 用 经 BP 神经 网 络 训 练 后 分 类 的 测试 样本 作为 检测 集 ,同样 的 测试 样本 经 过 ANFIS 
后 其 输出 散 点 图 与 BP 神经 网 络 分 类 的 散 点 对 比 图 如 图 5-40 所 示 。 


Anfis Editor: Untitled 


图 5-38 训练 误差 曲线 图 


Anfis Editor: Untitled = | 口 | 区 | 


TD 
| 
ee 


图 5-39 输出 散 点 图 


5-40 对 比 图 


如 图 5-40 所 示 ,测试 集中 第 3、.16、23 个 样本 的 输出 与 BP 神经 网 络 分 类 不 同 , 其 他 值 均 
完全 符合 。 经 过 反 向 误差 传播 算法 优化 后 的 FIS 系统 三 个 输入 变量 的 隶属 函数 分 别 如 
图 5-41 一 图 5-43 所 示 ,输出 变量 的 隶属 函数 如 图 5-44 所 示 。 


rship Function Editor: Untitled 


File Edit View 


图 5-41 第 1 个 输入 变量 优化 后 的 隶属 函数 图 形 
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Nenbership Function Editor: Untitled 


File Edit View 
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5-42 第 2 个 输入 变量 优化 后 的 隶属 函数 图 形 


了 eabership Function Editor: Untitled 
File Edit View 
FIS Variables 


图 5-43 第 3 个 输入 变量 优化 后 的 隶属 函数 图 形 


模式 识别 与 人 工 智能 (基于 MATLAB) 


了 eabership Function Editor: Untitled 


File Edit View 


5-44 ”输出 变量 优化 后 的 隶属 函数 图 形 
模糊 规则 如 图 5-45 所 示 ,其 中 所 有 规则 的 权重 值 均 为 1。 


Rule Editor: Untitled 


(nputl is In1mf5) and (input2 is in2mf3) and (input3 is In3mt5) then (output s out1mf115) (1) 加 
\f Cinput1 is in1mf5] and (input2 is in2mf4) and (input3 is in3mf1) then (output is outtmf116) (1) | 


5-45 ”FIS 模 糊 规 则 图 


规则 编辑 器 如 图 5-46 所 示 。 
经 过 训练 优化 后 的 曲面 观测 图 如 图 5-47 所 示 。 


Rule Yiewer: Untitled 


File Edit View 
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5-47 曲面 观测 图 


4. 模糊 神经 网 络 分 类 结果 
模糊 神经 网 络 的 分 类 结果 如 表 5-8 所 示 。 


模式 识别 与 人 工 智能 (基于 MATLAB) 


表 5-8 模糊 神经 网 络 分 类 结果 


特征 向 量 BP 模糊 仿真 结果 样本 分 类 

1702.8 1639. 79 2068. 74 3 3 
1877. 93 1860. 96 1975.3 3 3 
867. 81 2334. 68 2535; 1 未 分 出 1 
1831. 49 1713. 11 1604. 68 3 3 
460. 69 3274.77 2172. 99 4 4 
2374. 98 3346. 98 975. 31 2 2 
2271. 89 3482. 97 946.7 2 
1783. 64 1597. 99 2261. 31 3 3 
198. 83 3250. 45 2445. 08 4 4 
1494. 63 2072. 59 2550. 51 2.8 3 
1597.03 1921. 52 2126. 76 3 3 
1598. 93 1921.08 1623. 33 3 3 
1243. 13 1814.07 3441. 07 1 1 
2336. 31 2640. 26 1599. 63 2 bE 
354 3300. 12 2373. 61 4 4 
2144. 47 2501. 62 591.51 未 分 出 区 
426. 31 3105. 29 2057.8 4 4 
1507. 13 1556. 89 1954. 51 3 3 
343. 07 B27 7 2036. 94 4 4 
2201. 94 3196. 22 935.53 2 3 
2232. 43 3077. 87 1298. 87 2 2 
1580. 1 1752. 07 2463. 04 3 3 
1962. 4 1594. 97 1835. 95 未 分 出 3 
1495. 18 1957. 44 3498. 02 1 1 
21112517 1594. 39 2937. 73 1 和 

24. 22 3447. 31 2145. 01 4 4 
1269. 07 1910.72 2701. 97 1 1 
1802.07 1725. 81 1966. 35 3 3 
1817. 36 1927.4 2328.79 和 轩 
1860. 45 1782. 88 1875. 13 3 3 

5.9.4 结论 


模糊 神经 网 络 模型 具有 局 部 逼近 功能 ,同时 兼顾 模糊 与 神经 网 络 两 者 的 优点 ; 它 既 能 
模拟 人 脑 的 结构 以 及 对 信息 的 记忆 和 处 理 功 能 ,擅长 从 输入 输出 数据 中 学 习 有 用 的 知识 ,也 
能 模拟 人 的 思维 和 语言 中 对 模糊 信息 的 表达 和 处 理 方式 ,擅长 利用 人 的 经 验 性 知识 。 对 模 
糊 聚 类 而 言 ,模糊 规则 的 建立 一 般 是 根据 经 验 得 来 ,因此 其 应 用 受到 限制 。 将 神经 网 络 与 模 
糊 聚 类 相 结合 ,利用 神经 网 络 自 主 学 习 的 优点 来 建立 模糊 规则 库 ,一 方面 提高 了 规则 的 可 靠 
性 , 另 一 方面 也 打破 了 根据 经 验 建立 规则 的 局 限 性 ,扩大 了 其 应 用 范围 。 
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(1) 从 模糊 逻辑 的 发 展 过 程 看 ,模糊 逻辑 具有 哪些 特点 ? 

(2) 模糊 逻辑 描述 的 不 确定 性 包含 哪些 ? 请 举例 说 明 。 

(3) 如 何 理解 模糊 集合 与 经 典 集合 的 关系 ? 隶属 度 函 数 的 引入 对 模糊 系统 有 何 意义 ? 
(4) 简 述 模糊 C 均值 算法 的 原理 。 

(5) 简 述 模糊 神经 网 络 的 原理 。 


SS 


神经 网 络 聚 类 设计 


在 20 世纪 的 很 长 时 间 里 ,科学 家 们 期 望 使 用 计算 机 系统 模拟 人 类 思维 。 大 约 50 年 过 
去 了 ,研究 者 建立 了 第 一 个 神经 网 络 的 电子 硬件 模型 。 从 此 ,大 量 科学 团体 致力 于 新 的 数学 
模型 和 训练 算法 的 研究 。 


从 生物 学 的 角度 说 ,“ 神 经 "就 是 “神经 系统 ”的 缩写 。“ 神 经 系统 "是 机 体内 起 主导 作用 
的 系统 ,包括 中 枢 神 经 和 周围 神经 两 部 分 。 中 枢 神 经 通过 周围 神经 与 其 他 各 个 器 官 、 系 统 发 
生 极 其 广泛 的 联系 。 

那么 这 种 联系 是 如 何 发 生 的 呢 ? 这 与 神经 系统 的 生物 结构 有 关 , 神 经 系统 由 神经 细胞 
(神经 元 ) 和 神经 胶 质 组 成 。 在 人 体 的 神经 系统 里 ,神经 元 的 神经 纤维 主要 集中 在 周围 神经 
系统 ,其 中 许多 神经 纤维 集结 成 束 ,外 面包 着 由 结缔 组 成 的 膜 ,就 成 为 一 条 神经 。 它 可 以 把 
中 枢 神经 系统 的 兴奋 传递 给 各 个 器 官 , 也 可 把 各 个 器 官 的 兴奋 传递 给 中 枢 神 经 系统 的 组 织 ， 
这 样 就 实现 了 中 枢 神 经 与 人 体 其 他 各 个 器 官 ,系统 的 联系 。 

上 面 所 叙述 的 内 容 只 是 纯粹 的 生物 学 理论 ,那么 又 和 控制 理论 中 的 ”神经 网 络 * 有 何 关 
联 ? 让 我 们 从 “神经 网 络 * 技 术 的 发 展 历程 寻找 答案 。 


6.1.1 神经 网 络 的 发 展 历程 
神经 网 络 研究 的 主要 发 展 过 程 大 致 可 分 为 四 个 阶段。 


1. 第 一 阶段 (20 世纪 50 年 代 中 期 之 前 ) 
西班牙 解剖 学 家 Cajal 于 19 世纪 末 创 立 了 神经 元 学 说 ,该 学 说 认为 神经 元 的 形状 呈 两 


极 ,其 细胞 体 和 树 突 从 其 他 神经 元 接受 冲动 ,而 轴 突 则 将 信号 向 远离 细胞 体 的 方向 传递 。 在 
他 之 后 发 明 的 各 种 染色 技术 和 微 电 极 技 术 不 断 提供 了 有 关 神 经 元 的 主要 特征 及 其 电学 
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性 质 。 
1943 年 ,美国 的 心理 学 家 W. S. McCulloch 和 数学 家 W. A. Pitts 在 论文 (神经 活动 中 
所 蕴含 思想 的 逻辑 活动 ) 中 ,提出 了 一 个 非常 简单 的 神经 元 模型 , 即 M-P 模型 。 该 模型 将 神 
经 元 当 作 一 个 功能 逻辑 器 件 来 对 待 , 从 而 开创 了 神经 网 络 模型 的 理论 研究 。1949 年 ,心理 
学 家 D. 0. Hebb 写 了 一 本 题 为 (行为 的 组 织 ) 的 书 , 在 这 本 书 中 他 提出 了 神经 元 之 间 连 接 强 
度 变化 的 规则 , 即 后 来 所 谓 的 Hebb 学 习 法 则 。Hebb 写 道 :“ 当 神经 细胞 A 的 轴 突 足够 靠 
近 细 胞 B 并 能 使 之 兴奋 时 ,如 果 A 重复 或 持续 地 激发 B, 那 么 这 两 个 细胞 或 其 中 一 个 细 
胞 上 必然 有 某 种 生长 或 代谢 过 程 上 的 变化 ,这 种 变化 使 A 激活 B 的 效率 有 所 增加 。” 简 单 
地 说 ,就 是 如 果 两 个 神经 元 都 处 于 兴奋 状态 ,那么 它们 之 间 的 突 触 连接 强度 将 会 得 到 
增强 。 

20 世纪 50 年 代 初 ,生理 学 家 Hodykin 和 数学 家 Huxley 在 研究 神经 细胞 膜 等 效 电路 
时 ,将 膜 上 离子 的 迁移 变化 分 别 等 效 为 可 变 的 Na 十 电阻 和 十 电阻 ,从 而 建立 了 著名 的 
Hodykin-Huxley 方程 。 

这 些 先驱 者 的 工作 激发 了 许多 学 者 从 事 这 一 领域 的 研究 ,从 而 为 神经 计算 的 出 现 打 下 
了 基础 。 


2. 第 二 阶段 (20 世纪 50 年 代 中 期 到 60 年 代 末 ) 


1958 年 ,F. Rosenblatt 等 人 研制 出 了 历史 上 第 一 个 具有 学 习 型 神经 网 络 特点 的 模式 识 
别 装 置 , 即 代 号 为 Mark I 的 感知 机 (perceptron) ,这 一 重大 事件 是 神经 网 络 研究 进入 第 二 阶 
段 的 标志 。 对 于 最 简单 的 没有 中 间 层 的 感知 机 ,Rosenblatt 证 明了 一 种 学 习 算法 的 收敛 性 ， 
这 种 学 习 算 法 通过 迭代 地 改变 连接 权 来 使 网 络 执行 预期 的 计算 。 

稍 后 ,Rosenblatt 和 B. Widrow 等 人 创造 出 了 一 种 不 同类 型 的 会 学 习 的 神经 网 络 处 理 
单元 , 即 自 适应 线性 元 件 Adaline ,并 且 还 为 Adaline 找 出 了 一 种 有 力 的 学 习 规 则 ,这 个 规则 
至 今 仍 被 广泛 应 用 。Widrow 还 建立 了 第 一 家 神经 计算 机 硬件 公司 ,并 在 20 世纪 60 年 代 
中 期 实际 生产 商用 神经 计算 机 和 神经 计算 机 软件 。 

除 Rosenblatt 和 Widrow 外 ,在 这 个 阶段 还 有 许多 人 在 神经 计算 的 结构 和 实现 思想 方 
面 做 出 了 很 大 的 贡献 。 例 如 ,K. Steinbuch 研究 了 称 为 学 习 和 矩阵 的 一 种 二 进 制 联 想 网 络 结 
构 及 其 硬件 实现 。N. Nilsson 于 1965 年 出 版 的 (机 器 学 习 ) 一 书 对 这 一 时 期 的 活动 做 了 
总 结 。 


3. 第 三 阶段 (20 世纪 60 年 代 末 到 80 年 代 初 ) 


第 三 阶段 开始 的 标志 是 1969 年 M. Minsky 和 S. Papert 所 著 的 (感知 机 ) 一 书 的 出 版 。 
该 书 对 单 层 神经 网 络 进行 了 深入 分 析 , 并 且 从 数学 上 证 明了 这 种 网 络 功能 有 限 ,甚至 不 能 解 
决 像 * 异 或 ?这样 的 简单 逻辑 运算 问题 。 同 时 ,他 们 还 发 现 有 许多 模式 是 不 能 用 单 层 网 络 训 
练 的 ,而 多 层 网 络 是 否 可 行 还 很 值得 怀疑 。 

由 于 M. Minsky 在 人 工 智 能 领域 中 的 巨大 威望 ,他 在 论著 中 作出 的 翡 观 结论 给 当时 神 
经 网 络 沿 感知 机 方向 的 研究 泼 了 一 盆 冷 水 。 在 《感知 机 》 一 书 出 版 后 ,美国 联邦 基金 有 15 年 
之 久 没有 资助 神经 网 络 方面 的 研究 工作 ,苏联 也 取消 了 几 项 有 前 途 的 研究 计划 。 

但 是 ,即使 在 这 个 低潮 期 里 , 仍 有 一 些 研究 者 继续 从 事 神经 网 络 的 研究 工作 ,如 美国 波 


士 顿 大 学 的 S. Grossberg ,芬兰 赫尔辛基 技术 大 学 的 T Kohoneng 和 日 本 东京 大 学 的 甘 利 
俊 一 等 人 。 他 们 坚持 不 懈 的 工作 为 神经 网 络 研 究 的 复兴 开辟 了 道路 。 


4. 第 四 阶段 (20 世纪 80 年 代 初 至 今 ) 


1982 年 ,美国 加 州 理 工学 院 的 生物 物理 学 家 J.J. Hopfield 采用 全 互 连 型 神经 网 络 模 
型 ,利用 所 定义 的 计算 能 量 函 数 ,成 功 地 求解 了 计算 复杂 度 为 NP 完全 型 的 旅行 商 问题 
(travelling salesman problem,TSP)。 这 项 突破 性 进展 标志 着 神经 网 络 方面 的 研究 进入 了 
第 四 阶段 ,也 是 茵 勃发 展 的 阶段 。Hopfield 模型 提出 后 ,许多 研究 者 力图 扩展 该 模型 ,使 之 
更 接近 人 脑 的 功能 特性 。1983 年 ,T. Sejnowski 和 G. Hinton 提出 了 “ 隐 单 元 ”的 概念 ,并 且 
研制 出 了 Boltzmann 机 。 日 本 的 福 岛 邦 房 在 Rosenblatt 的 感知 机 的 基础 上 ,增加 隐 含 层 单 
元 ,构造 出 了 可 以 实现 联想 学 习 的 “ 认 知 机 ”。Kohonen 应 用 3000 个 阔 器 件 构 造 神 经 网 络 ， 
实现 了 二 维 网 络 的 联想 式 学 习 功 能 。1986 年 ,D. Rumelhart 和 J. McClelland 出 版 了 具有 禾 
动 性 的 著作 《并 行 分 布 处 理 一 一 认 知 微 结构 的 探索 》, 该 书 的 问世 宣告 神经 网 络 的 研究 进入 
了 高 潮 。 

1987 年 ,首届 国际 神经 网 络 大 会 在 圣地 亚 哥 召开 ,国际 神经 网 络 联合 会 (INNS) 成 立 。 
随后 INNS 创办 了 刊物 Journal Neural Networks, 其 他 专业 杂志 如 Neural Computation 、 
IEEE Transactions on Neural Networks .International Journal of Neural Systems 等 也 纷纷 
问世 。 世 界 上 许多 著名 大 学 相继 宣布 成 立 神经 计算 研究 所 并 制定 有 关 教 育 计 划 , 许 多 国家 
也 陆续 成 立 了 神经 网 络 学 会 ,并 召开 了 多 种 地 区 性 、 国 际 性 会 议 , 优 秀 论著 、 重 大 成 果 不 断 
涌现 。 

在 经 过 多 年 的 准备 与 探索 之 后 ,神经 网 络 的 研究 工作 已 进入 了 决定 性 的 阶段 。 日本、 美 
国 及 西欧 各 国 均 制定 了 有 关 的 研究 规划 。 

从 神经 网 络 的 发 展 历程 可 以 得 到 以 下 两 个 结论 。 

(1) 控制 理论 中 的 “神经 网 络 ” 是 对 生物 神经 系统 的 模拟 ,希望 通过 对 生物 神经 系统 智 
能 工作 过 程 的 “物理 ”模拟 ,实现 一 个 “智能 ”的 “物理 ”系统 。 

(2) 控制 理论 中 的 “神经 网 络 ? 的 发 展 是 人 们 在 对 生物 神经 系统 的 组 织 结构 和 功能 机 制 
进行 深入 探索 研究 的 基础 上 不 断 发 展 的 。 

在 这 里 ,引用 神经 网 络 前 人 的 话说 “具有 神经 网 络 的 “物理 ’ 系 统 ,在 微观 上 或 者 说 在 结 
构 上 能 与 生物 神经 网 络 取 得 拓扑 一 致 ,而 在 宏观 功能 上 能 与 人 类 智能 行为 恰当 对 应 ”。 


6.1.2 生物 神经 系统 的 结构 及 冲动 的 传递 过 程 


神经 系统 是 机 体内 起 主导 作用 的 系统 。 内 、 外 环境 的 各 种 信息 由 感受 器 接受 后 ,通过 周 
围 神经 传递 到 脑 和 次 髓 的 各 级 中 枢 进 行 整 合 , 青 经 周围 神经 控制 和 调节 机 体 各 系统 器 官 的 
活动 ,以 维持 机 体 与 内 、 外 界 环 境 的 相对 平衡 。 

神经 系统 由 神经 细胞 (神经 元 ) 和 神经 胶 质 所 组 成 。 

神经 元 是 一 种 高 度 特 化 的 细胞 ,是 神经 系统 的 基本 结构 和 功能 单位 , 它 具 有 感受 刺激 和 
传导 兴奋 的 功能 。 神 经 元 由 胞 体 和 突起 两 部 分 构成 。 胞 体 的 中 央 有 细胞 核 , 核 的 周围 为 细 
胞 质 ,细胞 质 内 除 有 一 般 细胞 所 具有 的 细胞 器 (如 线粒体 内 质 网 等 ) 外 ,还 含有 特有 的 神经 


元 纤维 及 尼 氏 体 。 神 经 元 的 突起 根据 形状 和 机 能 又 分 为 树 突 和 轴 突 。 树 突 较 短 但 分 支 较 
多 , 它 接受 冲动 ,并 将 冲动 传 至 细胞 体 ,各 类 神经 元 树 突 的 数目 多 少 不 等 ,形态 各 异 。 每 个 神 
经 元 只 发 出 一 条 轴 突 ,长 短 不 一 , 胞 体 发 生出 的 冲动 沿 轴 突 传 出 。 神 经 元 的 结构 如 图 6-1 
所 示 。 

突 触 的 结构 如 图 6-2 所 示 。 


| 来 自 其 他 神经 元 轴 突 神经 末梢 


突 触 


轴 突 


细胞 体 


神经 末梢 
Ka 突 触 前 腊 
树 突 突 触 后 膜 
图 6-1 神经 元 的 结构 图 6-2 突 触 的 结构 
突 触 传递 冲动 的 过 程 如 下 : 


(1) 神经 冲动 到 达 突 触 前 神经 元 轴 突 末梢 一 突 触 前 膜 去 极 化 。 

(2) 电压 门 控 Cas+ 通道 开放 -> 膜 外 Ca+ 内 流入 前 膜 。 

(3) Ca2+ 与 胞 浆 CaM 结合 成 4 Ca2s+ -CaM 复合 物 一 激活 CaM 依赖 的 PK IT -> 圳 泡 外 
表面 突 触 蛋白 工 磷酸 化 -~ 蛋白 工 与 于 泡 脱离 -> 解除 蛋白 工 对 宫 泡 与 前 膜 融合 及 释放 递 质 的 
阻碍 作用 。 

(4) 襄 泡 通过 出 胞 作用 量子 式 释放 递 质 入 间隙 ( 诈 泡 
可 再 循环 利用 ) 。 

(5) 神经 递 质 -~ 作用 于 后 膜 上 特异 性 受 体 或 化 学 门 控 
离子 通道 -> 后 膜 对 某 些 离子 通 透 性 改变 -> 带电 离子 发 生路 
膜 流动 -> 后 膜 发 生 去 极 化 或 超 极 化 -> 产生 突 触 后 电位 。 

从 突 触 传递 冲动 的 过 程 可 得 到 以 下 结论 : 在 突 触 传递 
冲动 的 过 程 中 , 突 触 前 末梢 去 极 化 是 诱发 递 质 释放 的 关键 
因素 ~ 开启 电压 门 控 Cas+ 通道 ; Ca** 是 前 膜 兴 奋 和 递 质 释 
放 过 程 的 耦 联 因子 ~ 递 质 释放 量 与 内 流入 前 膜 的 Ca+ 量 呈 
正 相关 ; 囊 泡 膜 的 再 循环 利用 是 突 触 传 递 持久 进行 的 必要 
条 件 。 

突 触 后 电位 又 分 为 兴奋 性 突 触 后 电位 和 抑制 性 突 触 后 
电位 。 

在 兴奋 性 突 触 后 电位 的 作用 下 , 突 触 后 膜 在 递 质 作用 和 
下 发 生 去 极 化 ,使 突 触 后 神经 元 兴奋 性 提高 。 如 图 6-3 所 运动 神经 元 
示 , 外 部 可 变 刺 激 作用 于 肌 梭 传人 纤维 后 ,神经 元 发 生 去 极 ”图 6-3 ”冲动 在 神经 元 中 的 传递 


刺激 (可 变 ) 


_.. 肌 梭 传 入 纤维 
oe 


膜 后 电位 


化 ,产生 兴奋 性 突 触 后 电位 。 随 着 刺激 强度 增加 ,兴奋 性 突 触 后 电位 发 生 总 和 而 逐渐 增 大 ， 
使 膜 电位 降低 ,如 使 膜 电位 由 静 息 时 的 一 70mV 去 极 化 至 一 58mV。 当 兴奋 性 突 触 后 电位 总 
和 达到 阔 电 位 (即使 膜 电位 去 极 化 为 一 52mV) 时 ,系统 将 冲动 传导 至 整个 突 触 后 神经 元 。 

如 果 在 抑制 性 突 触 后 电位 的 作用 下 , 突 触 后 膜 在 递 质 作用 下 发 生 超 极 化 , 即 如果 膜 电位 
静 息 时 为 一 70mV , 超 极 化 后 膜 电位 为 一 76mV, 从 而 抑制 冲动 的 向 后 传递 。 

一 个 神经 元 往往 与 周围 的 许多 神经 元 形成 大 量 的 突 触 联系 , 它 包含 形成 众多 的 兴奋 性 
和 抑制 性 突 触 ,如 果 兴 奋 性 和 抑制 性 的 作用 发 生 在 同一 个 神经 元 , 则 将 发 生 整合 , 即 一 个 神 
经 元 最 终 产 生 的 效应 将 取决 于 大 量 传人 信息 共同 作用 的 结果 。 

然而 ,这 种 共同 的 作用 不 是 简单 的 汇聚 作用 ,因为 每 一 突 触 形成 的 位 置 不 同 ,形成 突 触 
后 电位 的 离子 流动 不 同 , 导 致 突 触 传 人 信息 的 强度 和 时 间 组 合 的 变换 足以 使 神经 元 接收 信 
息 量 成 倍增 加 。 在 突 触 后 膜 中 ,一 些 突 触 能 够 产生 大 的 变换 , 而 另 一 些 可 能 引起 很 小 的 
变换 。 


6.1.3 人工 神经 网 络 的 定义 


神经 系统 是 人 体内 由 神经 组 织 构成 的 全 部 装置 ,主要 由 神经 元 组 成 。 神 经 系统 具有 重 
要 的 功能 : 一 方面 它 控制 与 调节 各 器 官 、 系 统 的 活动 ,使 人 体 成 为 一 个 统一 的 整体 ; 另 一 方 
面 通过 神经 系统 的 分 析 与 综合 ,使 机 体 对 环境 变化 的 刺激 做 出 相应 的 反应 ,达到 机 体 与 环境 
的 统一 。 人 的 神经 系统 是 亿 万 年 不 断 进 化 的 结晶 , 它 有 着 十 分 完善 的 “生理 结构 ”和 “心理 
功能 ”。 

因此 ,以 人 的 大 脑 组 织 结构 和 功能 特性 为 原型 设法 构建 一 个 与 人 类 大 脑 结构 和 功能 拓 
扑 对 应 的 人 类 智能 系统 是 人 工 神 经 网 络 的 原则 和 目标 。 

1987 年 Simpson 提出 了 神经 网 络 定义 :“ 人 工 神 经 网 络 是 一 个 非 线性 的 有 向 图 ,图 中 
含有 可 以 通过 改变 权 大 小 来 存放 模式 的 加 权 边 ,并 且 可 以 从 不 完整 的 或 未 知 的 输入 找到 
模式 。” 

而 在 1988 年 , Hecht-Nielsen 提出 神经 网 络 的 定义 :“ 人 工 神 经 网 络 是 一 个 并 行 、 分 布 
处 理 结构 , 它 由 处 理 单 元 及 其 称 为 连接 的 无 向 信号 通道 互 连 而 成 。 这 些 处 理 单元 
(processing element, PE) 具 有 局 部 内 存 , 并 可 以 完成 局 部 操作 。 每 个 处 理 单元 有 一 个 单一 
的 输出 连接 ,这 个 输出 可 以 根据 需要 被 分 支 成 希望 个 数 的 许多 并 行 连接 ,并 且 这 些 并 行 连接 
都 输出 相同 的 信号 , 即 相应 处 理 单元 的 信号 ,信号 的 大 小 不 因 分 支 的 多 少 而 变化 。 处 理 单 元 
的 输出 信号 可 以 是 任何 需要 的 数学 模型 ,每 个 处 理 单 元 中 进行 的 操作 必须 是 完全 局 部 的 。 
也 就 是 说 , 它 必须 仅仅 依赖 于 经 过 输入 连接 到 达 处 理 单元 的 所 有 输入 信号 的 当前 值 和 存储 
在 处 理 单元 局 部 内 存 中 的 值 .在 这 一 定义 中 强调 : 人 工 神 经 网 络 是 并 行 、 分 布 处 理 结构 ; 
一 个 处 理 单元 的 输出 可 以 被 任意 分 支 且 大 小 不 变 ; 输出 信号 可 以 是 任意 的 数学 模型 ; 处 理 
单元 可 以 完成 局 部 操作 。 

目前 使 用 最 广泛 的 是 T. Koholen 的 定义 , 即 “ 神 经 网 络 是 由 具有 适应 性 的 简单 单元 组 
成 的 广泛 并 行 互 连 的 网 络 , 它 的 组 织 能 够 模拟 生物 神经 系统 对 真实 世界 物体 所 做 出 的 交互 
反应 ”。 


第 6 章 神经 网 络 聚 类 设计 


人 8 人 工 神经 网 络 模型 


人 工 神 经 网 络 是 对 人 类 神经 系统 的 模拟 ,神经 系统 以 神经 元 为 基础 ,因此 神经 网 络 也 是 
以 人 工 神经 元 模型 为 基本 构成 单位 的 。 


6.2.1 人 工 神 经 元 的 基本 模型 


今天 ,计算 机 科学 的 分 支 一 一 联结 机 制 一 一 已 经 获得 相当 大 的 普及 。 研 究 领 域 集中 在 
高 度 并 行 计算 机 架构 的 行为 ,也 就 是 说 人 工 神 经 网 络 。 这 些 网 络 使 用 很 多 简单 计算 单元 , 称 
为 神经 元 ,每 一 个 都 试 着 模拟 单个 人 脑 细 胞 的 行为 。 

神经 网 络 领域 的 研究 者 已 经 分 析 了 人 类 脑 细胞 的 不 同 模型 。 人 脑 包含 约 140 亿 个 神经 
细胞 。 如 图 6-4 为 人 类 神经 元 的 简化 原理 图 。 

细胞 本 身 包含 的 细胞 核 被 电气 膜 包 围 。 每 一 个 神经 元 有 一 个 激活 水 平 , 其 范围 在 最 大 
值 与 最 小 值 之 间 。 因 此 ,与 布尔 逻辑 相 比 ,不 仅仅 是 两 个 可 能 值 或 可 能 存在 的 状态 。 

突 触 存在 增加 或 减少 这 个 神经 元 的 激活 程度 ,作为 其 他 神经 元 的 输入 结果 。 这 些 突 触 
从 一 个 发 送 的 神经 元 到 一 个 接收 神经 元 传输 激活 水 平 ,如 果 突 触 是 兴奋 的 ,发 送 神 经 元 的 激 
活水 平 增加 接收 神经 元 的 激活 水 平 ; 如 果 突 触 是 抑制 的 ,发 送 神经 元 的 激活 水 平 减少 接收 
神经 元 的 激活 水 平 。 突 触 差异 不 仅仅 在 于 它们 是 否 兴奋 或 抑制 接收 神经 元 ,也 在 于 影响 的 
权 值 ( 突 触 强 度 ) 。 每 个 神经 元 的 输出 都 由 轴 突 转换 。 

综 上 所 述 , 生 物 神经 元 信息 传递 的 过 程 是 : 当 一 个 兴奋 性 的 冲动 到 达 突 触 前 膜 持续 约 
0. 5ms, 其 去 极 性 效应 就 会 在 突 触 后 膜 上 记录 下 来 , 随 着 突 触 后 膜 接 触 的 神经 递 质量 增加 而 
增加 其 幅度 ,并 增加 突出 后 神经 元 对 刺激 的 兴奋 性 反应 ; 与 此 相反 ,抑制 性 突 触 后 电位 可 使 
突 触 后 神经 元 对 后 继 刺激 的 兴奋 性 反应 降低 ,兴奋 性 突 触 后 电位 与 抑制 性 突 触 后 电位 在 时 
空 上 可 进行 代数 累积 ,一 旦 这 种 累积 超过 某 个 阔 值 ,神经 元 即 发 生动 作 电 位 或 神经 冲动 。 

如 果 将 上 述 过 程 用 数学 图 形 方式 表示 , 则 可 获得 人 工 神经 元 的 模型 ,如 图 6-5 所 示 。 


ee 


一 0 : 抑制 性 突 触 


图 6-4 人 类 神经 元 的 简化 原理 图 图 6-5 人 工 神 经 元 模型 


人 工 神 经 元 模型 为 一 个 多 输入 单 输出 的 信息 处 理 单元 。 其 中 ,wi 为 输入 信号 加 权 值 ; 6 
为 阔 值 , 即 输入 信号 的 加 权 乘 积 的 和 必须 大 于 阔 值 ,输入 信号 才能 向 后 传递 ; (9 ) 为 输入 


模式 识别 与 人 工 智能 (基于 MATLAB) 


-1 -1 
(d) 符号 函数 (8) 饱和 函数 (1 双 曲 函数 


图 6-6 常见 的 转换 函数 


1， 7 三 0 

阶 跃 函数 的 解析 表达 式 : a=/00=| (6-1) 
0， n=0 

比例 函数 的 解析 表达 式 : wa= Fo) 一 7 (6-2) 

S 形 丽 数 的 解析 表达 式 , 4 一 (mw) 一 于 上- (6-3) 

本 [ 7 之 0 

符号 函数 的 解析 表达 式 : a=/00=| (6-4) 
—ls je 
i 7 之 1 

饱和 函数 的 解析 表达 式 ， oo | (6-5) 
= We 

双 曲 函数 的 解析 表达 式 ; a=f(n) 二 1 一 (6-6) 


1 十 总 到 


6.2.2 ”人工 神经 网 络 基本 构架 


人 脑 之 所 以 有 高 等 智慧 能 力 是 因为 有 大 量 的 生物 神经 细胞 构成 的 神经 网 络 。 同 样 , 若 
要 让 “人 工 神 经 网 络 " 具 有 一 定 程度 人 的 智慧 , 则 必须 将 许多 的 人 工 神 经 元 经 由 适当 的 连接 ， 
构架 一 个 “类 神经 网 络 ” 的 网 络 ,我 们 称 这 一 “类 神经 网 络 ” 为 人 工 神经 网 络 。 

一 个 神经 网 络 包 括 一 组 交互 连接 的 同样 单元 。 每 个 单元 可 能 被 看 作 从 许多 其 他 单元 聚 
合 信息 的 简单 处 理 器 。 聚 合 后 ,这 个 单元 计算 通过 通路 连接 到 其 他 单元 的 输出 。 一 些 单元 
通过 输入 单元 或 输出 单元 被 连接 到 外 部 世界 。 信 息 通过 输入 单元 首先 传人 系统 ,接着 通过 
网 络 处 理 并 从 输出 单元 读 取 。 

基于 简单 神经 元 模型 ,存在 不 同 的 数学 模型 。 图 6-7 为 人 工 神 经 元 的 基本 结构 。 

单个 神经 元 的 行为 由 下 面 的 函数 确定 。 
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输入 权重 神经 网 络 单元 输出 
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图 6-7 人 工 神经 元 的 基本 结构 


1. 传播 函数 


首先 ,传播 函数 结合 所 有 基于 发 送 神 经 元 的 输入 x;。 组 合 的 方法 主要 是 加 权 和 , 权 rwi 
代表 突 触 的 强度 。 刺 激 突 触 为 正 的 权 值 ; 抑制 突 触 为 负 的 权 值 。 偏 差 9 被 加 到 加 权 和 , 表 
达 神 经 元 的 后 台 激活 水 平 。 


2， 激活 函数 


传播 函数 的 结果 现在 用 于 计算 有 所 谓 激活 函数 的 神经 元 的 激活 。 不 同类 型 的 函数 用 于 
这 一 函数 计算 ,其 中 S 形 函 数 是 最 常用 的 。 


3. 输出 函数 


有 时 ,由 激活 函数 产生 的 计算 结果 要 接着 被 其 他 输出 函数 进一步 处 理 ,这 将 允许 额外 过 
滤 每 个 单元 的 输出 信息 。 

就 是 这 样 简单 的 神经 元 模型 支撑 着 今天 大 多 数 的 神经 网 络 应 

注意 : 这 个 模型 仅 是 实际 神经 网 络 的 一 tr 
建立 一 个 单个 的 人 类 神经 元 模型 ,因为 建 模 已 超出 了 人 类 当前 的 技术 能 力 。 因 此 ,基于 这 个 
简单 神经 元 模型 的 任何 应 用 都 不 能 准确 复制 人 脑 。 但 是 ,很 多 成 功 应 用 这 个 技术 的 例子 证 
明 , 基 于 简单 神经 元 模型 的 神经 网 络 具有 一 定 的 优点 。 

从 上 面 的 结构 可 知 , 人 工 神 经 网 络 用 于 模拟 生物 神经 网 络 。 模 拟 从 以 下 两 个 方面 进行 : 
一 是 从 结构 和 实现 机 理 方面 进行 模拟 ; 二 是 从 功能 上 进行 模拟 。 根 据 不 同 的 应 用 背景 及 不 
同 的 应 用 要 求 , 实 际 的 神经 网 络 结构 形式 多 样 ,其 中 最 典型 的 人 工 神 经 网 络 结构 如 图 6-8 
所 示 。 

前 馈 型 网 络 是 一 类 单方 向 层次 性 网 络 模块 , 它 包 含 输入 层 . 中 间 隐 含 层 和 输入 层 。 每 一 


(a) 前 馈 型 神经 网 络 


| 
(b) 反馈 型 神经 网 络 


6-8 最 典型 的 人 工 神经 网 络 结构 


层 皆 由 一 些 神经 元 构架 而 成 ,而 同一 层 中 的 神经 元 彼此 不 相连 ,不 同 层 间 的 神经 元 则 彼此 相 
连 。 信 号 的 传输 方向 也 是 单方 向 的 ,由 输入 层 传输 至 输出 层 。 这 种 类 型 的 网 络 结构 简单 ,可 
实现 反应 式 的 感知 ,识别 和 推理 。 

反馈 型 网 络 是 一 类 可 实现 联想 记忆 即 联 想 映 射 的 网 络 。 网 络 中 的 人 工 神经 元 彼此 相 
连 ,对 每 个 神经 元 而 言 , 它 的 输出 连接 至 所 有 其 他 神经 元 ,而 它 的 输入 则 来 自 所 有 其 他 神经 
元 的 输出 。 可 以 说 ,网 络 中 的 每 个 神经 元 平行 地 接受 所 有 神经 元 输入 ,再 平行 地 将 结果 输出 
到 网 络 中 其 他 神经 元 上 。 反 馈 型 神经 网 络 在 智能 模拟 中 得 到 广泛 应 用 。 

从 人 工 神经 网 络 的 结构 可 知 , 人 工 神经 网 络 是 一 个 并 行 和 分 布 式 的 信息 处 理 网 络 ,由 多 
个 神经 元 组 成 ,每 一 个 神经 元 有 一 个 单一 的 输出 ,可 以 连接 到 很 多 其 他 的 神经 元 ,输入 有 多 
个 连接 通路 ,每 个 连接 通路 对 应 一 个 连接 权 系数 。 


6.2.3 ”人工 神经 网 络 的 工作 过 程 


就 像 人 的 认 知 过 程 一 样 ,人 工 神 经 网 络 也 存在 学 习 的 过 程 。 在 神经 网 络 结构 图 中 ,信号 
的 传递 过 程 中 要 不 断 进行 加 权 处 理 , 即 确定 系统 各 个 输入 对 系统 性 能 的 影响 程度 ,这 些 加 权 
值 是 通过 对 系统 样本 数据 的 学 习 确 定 的 。 当 给 定神 经 网 络 一 组 已 知 的 知识 ,在 特定 的 输入 
信号 作用 下 ,反复 运算 网 络 中 的 连接 权 值 ,使 其 得 到 期 望 的 输出 结果 ,这 一 过 程 称 为 学 习 
过 程 。 

对 于 前 馈 型 神经 网 络 , 它 从 样本 数据 中 取得 训练 样本 及 目标 输出 值 , 然 后 将 这 些 训练 样 
本 当 作 网 络 的 输入 ,利用 最 速 下 降 法 反复 地 调整 网 络 的 连接 加 权 值 ,使 网 络 的 实际 输出 与 目 
标 输出 值 一 致 。 当 输入 一 个 非 样本 数据 时 ,已 学 习 的 神经 网 络 就 可 以 给 出 系统 最 可 能 的 输 
出 值 。 

对 于 反馈 型 神经 网 络 , 它 从 样本 数据 中 取得 需 记忆 的 样本 ,并 以 Hebbian 学 习 规 则 来 
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调整 网 络 中 的 联结 加 权 值 , 以 “记忆 ”这 些 样本 。 当 网 络 将 样本 数据 记忆 完成 ,这 时 如 果 给 神 
经 网 络 一 个 输入 , 当 这 一 输入 是 一 个 “不 完整 ”“ 带 有 噪声 ”的 数据 时 ,神经 网 络 通过 联想 ,将 
输入 信号 与 记忆 中 的 样本 对 照 ,给 出 输入 所 对 应 的 最 接近 的 样本 数据 的 输出 值 。 


6.2.4 人 工 神经 网 络 的 特点 
基于 神经 元 构建 的 人 工 神经 网 络 具 有 如 下 特点 。 


1. 并 行 数据 处 理 


人 工 神 经 网 络 采 用 大 量 并 行 计算 方式 ,经 由 不 同 的 人 工 神 经 元 进行 运算 处 理 。 因 此 ,用 
硬件 实现 的 神经 网 络 的 处 理 速 度 远 远 高 于 通常 计算 机 的 处 理 速 度 。 


2. 强 的 容错 能 力 


人 工 神 经 网 络 在 运作 时 具有 很 强 的 容错 能 力 , 即 使 输入 信号 "不 完整 或 " 带 有 噪声 ”, 也 
不 会 影响 其 运作 的 正确 性 。 而 且 即 使 有 部 分 人 工 神经 元 损坏 ,也 不 会 影响 整个 神经 网 络 的 
整体 性 能 。 


3. 具有 泛 化 能 力 
通过 记忆 已 知 样本 数据 ,对 其 他 输入 信号 进行 运算 ,计算 该 输入 相对 应 的 输出 值 。 


4. 可 实现 最 优化 计算 
神经 网 络 可 在 约束 条 件 下 ,使 整个 设计 目标 达到 最 优化 状态 。 


5. 具有 自 适应 功能 


神经 网 络 可 以 根据 系统 提供 的 样本 数据 ,通过 学 习 和 训练 , 找 出 和 输出 之 间 的 内 在 联 
系 , 从 而 求 得 问题 的 解 , 而 不 是 依赖 对 间 题 的 经 验 知识 和 规则 ,因此 它 具 有 很 好 的 适应 性 。 


前 馈 神 经 网 络 


对 于 很 多 应 用 ,一 个 确定 的 网 络 计算 与 确定 的 时 间 行 为 一 样 重要 。 网 络 架构 允许 中 间 
单元 的 循环 结构 计算 依靠 神经 元 内 部 激活 的 输出 值 。 即 使 输入 不 变化 ,输出 也 可 能 不 同 , 直 
到 网 络 内 的 计算 达到 稳定 状态 。 单 元 之 间 不 仅 有 单方 向 连接 的 网 络 , 而 且 有 反方 向 的 网 络 ， 
这 些 相同 方向 的 网 络 称 为 前 馈 网 络 。 在 实际 应 用 中 .前 馈 类 型 的 网 络 非常 重要 。 

神经 网 络 的 对 象 以 之 前 训练 得 到 的 网 络 处 理 信息 ,使 用 输入 和 相应 输出 样本 数据 集 ,或 
者 估计 神经 网 络 性 能 的 “教师 ”进行 网 络 训 练 。 神 经 网 络 使 用 学 习 算 法 完成 期 望 的 训练 。 之 
前 建立 的 神经 网 络 未 经 训练 ,不 能 反映 任何 行为 。 学 习 算 法 连接 着 网 络 进行 训练 ,并 修改 网 
络 的 单个 神经 元 和 它们 连接 的 权 , 使 网 络 行为 反映 期 望 的 行为 。 网 络 学 习 的 知识 通常 由 连 
接 单元 的 连接 强度 表示 ,有 时 也 由 单元 自己 的 配置 表示 。 


模式 识别 与 人 工 智能 (基于 MATLAB) 


所 以 ,用 户 如 何 使 一 个 神经 网 络 学 习 呢 ? 方法 类 似 于 巴 甫 洛 夫 对 狗 的 训练 。 几 百年 前 ， 
研究 者 巴 甫 洛 夫 使 用 狗 进行 实验 。 当 他 拿 出 狗 食 时 , 狗 在 流 口水 。 他 接着 在 狗 笼 装 了 一 个 
铃 。 当 他 敲 铃 时 狗 没 有 流 口水 ,因此 他 看 到 在 铃 和 食物 之 间 没 有 联系 。 他 接着 使 用 铃声 训 
练 狗 使 其 和 食物 发 生 联系 ,每 当 他 拿 出 狗 食 时 总 是 让 铃 响 。 一 段 时 间 后 , 当 铃 声响 起 没有 食 
物 时 , 狗 也 流 口水 。 巴 甫 洛 夫 的 实验 原理 如 图 6-9 所 示 。 

学 习 前 学 习 后 
食物 铃声 食物 铃声 食物 铃声 食物 铃声 


经 过 训练 


狗 流 口水 狗 不 流 口 水 狗 流 口水 狗 流 口水 
6-9 巴 甫 洛 夫 的 实验 原理 


假设 将 简单 神经 元 模型 看 作 是 巴 甫 洛 夫 的 狗 。 有 两 个 输入 神经 元 ,一 个 表示 狗 看 食物 
的 事实 ; 另 一 个 表示 铃 响 的 事实 。 输 入 神经 元 与 输出 神经 元 的 连接 叫 作 突 触 。 线 的 虚实 表 
示 突 触 的 权 。 在 学 习 之 前 , 狗 仅 对 食物 有 反应 ,对 铃声 无 反应 。 因 此 ,从 左边 输入 神经 元 到 
输出 神经 元 的 线 是 实 的 ,而 从 右边 输入 神经 元 到 输出 神经 元 的 线 是 虚 的 。 

之 后 , 当 给 出 食物 时 ,重复 让 狗 在 铃 和 食物 间 建 立 关联 。 因 此 ,右边 的 线 也 变 实 一 一 突 
触 的 权 增 加 。 从 这 些 实验 中 研究 者 使 用 Hebb 名 字 演 绎 出 下 面 的 学 习 规 则 ; 

如 果 神 经 元 的 输出 要 激活 ,增加 活性 输入 神经 元 的 权 ; 

如 果 神 经 元 的 输出 要 停止 , 减 小 活性 输入 神经 元 的 权 。 

这 个 规则 叫做 Hebbian 规则 ,是 所 有 学 习 算 法 之 父 。 必 须 关 注 学 习 原 理 以 说 明 这 个 规 
则 如 何 被 应 用 到 今天 的 学 习 方 法 中 。 

1) 监督 学 习 

如 果 一 个 给 定 的 输入 模式 (如 一 个 可 识别 字符 ) 必 须 与 指定 的 输出 模式 关联 (如 所 有 有 
效 字符 集 ), 则 可 以 通过 对 照 计算 的 结果 和 期 望 的 结果 监督 彼此 学 习 。 

2) 非 监督 学 习 

如 果 训 练 过 程 的 任务 要 发 现 环境 的 规律 性 ( 像 给 定 输入 模式 的 类 属性 ) ,通常 没有 指定 
的 输出 模式 或 结构 监督 训练 结果 ,这 个 学 习 过 程 被 叫 作 非 监 督学 习 。 

神经 网 络 行为 通过 改变 连接 单元 的 连接 强度 配置 输出 。 监 督学 习 仅 能 使 用 与 这 个 过 程 
完全 独立 的 样本 数据 完成 。 因 此 ,学 习 和 工作 阶段 不 能 分 割 。 

1) 训练 阶段 

建立 一 个 神经 网 络 解决 方案 意味 着 要 训练 网 络 按照 期 望 的 行为 运行 ,这 一 训练 过 程 称 
为 学 习 阶 段 。 样 本 数据 集 或 “教师 ”在 这 一 阶段 使 用 。“ 教 师 ” 也 是 一 个 数学 函数 或 估计 神经 
网 络 性 能 质量 的 人 。 因 为 神经 网 络 多 用 于 没有 适当 数学 模型 存在 的 复杂 应 用 ,并 且 神 经 网 
络 性 能 在 大 多 数 应 用 中 很 难 评估 ,所 以 大 多 数 系统 使 用 样本 数据 训练 。 

2) 工作 阶段 

学 习 完 成 后 ,神经 网 络 准备 进入 工作 阶段 。 作 为 一 个 训练 结果 , 当 输 入 值 匹配 训练 样本 
之 一 时 ,神经 网 络 输出 值 几乎 等 于 样本 数据 集 的 那些 值 。 对 于 样本 数据 输入 值 中 间 的 输入 


a 
值 ,近似 输出 值 。 在 工作 阶段 ,神经 网 络 的 行为 是 确定 的 。 因 此 ,每 个 可 能 输入 值 的 组 合 总 
是 产生 同样 的 输出 值 。 在 工作 阶段 ,神经 网 络 不 能 学 习 , 这 在 大 多 数 技术 应 用 中 是 重要 的 ， 
它 是 确保 系统 永远 也 不 要 走向 危险 状态 的 前 提 。 
监督 学 习 的 训练 阶段 和 工作 阶段 示意 图 如 图 6-10 所 示 。 


a 


训练 阶段 工作 阶段 
图 6-10 监督 学 习 的 训练 阶段 和 工作 阶段 示意 图 
今天 ,经 常 使 用 的 神经 网 络 算法 是 将 监督 训练 程序 应 用 到 前 会 网络 中 。 
前 馈 型 神经 网 络 具 有 分 层 结构 ,第 一 层 是 输入 层 , 中 间 是 隐 含 层 ,最 后 一 层 是 输出 层 。 
其 信息 从 输入 层 依次 向 后 传递 ,直至 输出 层 。 


6.3.1 感知 器 网 络 


感知 器 网 络 是 最 简单 的 前 馈 网 络 , 主 要 用 于 模式 分 类 ,也 可 用 在 基于 模式 分 类 的 学 习 控 
制 和 多 模 态 控制 中 。 
1. 单 层 感知 器 网 络 


单 层 感知 器 网 络 结构 如 图 6-11 所 示 。 图 中 x 二 [x1,x2，… ,zsj" 是 输入 特征 向 量 ,是 
Zi 到 yy; 的 连接 权 , 输 出 量 y;(j 二 1,2,…,n) 是 按照 不 同 特征 的 分 类 结果 。 由 于 按 不 同 特征 
的 分 类 是 互相 独立 的 ,因此 可 以 取出 其 中 的 一 个 神经 元 来 讨论 ,如 图 6-12 所 示 。 


» 


Xl B23 Xn 
图 6-11 单 层 感知 器 网 络 结构 图 6-12 单个 神经 元 的 感知 器 
其 输入 到 输出 的 变换 关系 为 
疡 二 Zzi—0 (6-7) 
i=1 

四 5 二 0 
| (6-8) 

一 i 0 


车 有 P 了 个 输入 样本 xz*(p 二 1,2,…,P) ,经 过 该 感知 器 的 输出 ,y; 只 有 两 种 可 能 , 即 yj 二 1 
或 光一 一 1, 从 而 说 明 它 将 输入 模式 分 成 了 两 类 。 若 将 z*(p 一 1,2,…,P) 看 成 是 维 空 间 
的 P 个 点 , 则 该 感知 器 将 该 P 个 点 分 成 了 两 类 ,它们 分 属于 维 空间 的 两 个 不 同 的 部 分 。 
以 二 维 空间 为 例 ,如 图 6-13 所 示 。 图 中 以 三 角形 和 长 方形 代表 输入 的 特征 点 ,三 角形 
和 长 方形 表示 具有 不 同 特征 的 两 类 向 量 。 根 据 感知 器 的 变换 关系 ,可 知 分 界线 的 方程 为 
az 十 ozy 一 0 一 0 (6-9) 
显然 ,这 是 一 条 直线 方程 , 它 说 明 只 有 那些 线性 可 分 模式 类 才能 用 感知 器 来 加 以 区 分 。 
图 6-14 所 示 的 异 或 关系 ,显然 是 线性 不 可 分 的 。 因 此 , 单 层 感知 器 网 络 对 异 或 关系 的 两 维 
输入 是 线性 不 可 分 的 。 


(a) 两 输入 感知 器 (b) 输入 信号 及 其 分 类 结果 


图 6-13 二 维 输入 的 感知 器 网 络 图 6-14 二 维 输入 信号 为 异 或 关系 
2. 多 层 感知 器 网 络 


由 于 不 可 能 对 单 层 感知 器 网 络 实现 正确 区 分 ,因此 需要 增加 神经 元 数量 。 对 于 上 例 中 
提 到 的 异 或 问题 ,可 采用 图 6-15 所 示 的 两 层 二 维 输入 的 感知 器 网 络 实现 异 或 逻辑 。 

(1) 第 一 层 第 一 个 神经 元 所 完成 的 工作 为 ox 十 wizy 一 从 二 0, 即 在 输入 点 坐标 中 产生 
第 1 条 分 类 线 , 如 图 6-16 所 示 。 

(2) 第 一 层 第 二 个 神经 元 所 完成 的 工作 为 wa 十 wzzy 一 个 二 0, 即 在 输入 点 坐标 中 产生 
第 2 条 分 类 线 , 如 图 6-17 所 示 。 


图 6-15 两 层 二 维 输入 的 图 6-16 异 或 关系 第 一 次 分 类 图 6-17 异 或 关系 第 二 次 分 类 
感知 器 网 络 


(3) 第 二 层 神经 元 所 完成 的 工作 为 wiz' 十 wiy' 一 9 二 0, 即 将 上 述 两 条 直线 所 确定 的 区 
域 进行 划分 ,从 而 将 具有 异 或 关系 的 输入 进行 分 类 。 

从 上 述 对 异 或 输入 的 处 理 可 知 ,只 要 建立 足够 多 的 神经 元 连接 , 即 构建 多 层 感知 器 网 
络 , 就 可 以 实现 任意 形状 的 划分 。 多 层 感知 器 网 络 的 结构 如 图 6-18 所 示 , 第 一 层 为 输入 层 ， 
中 间 层 为 隐 含 层 , 最 后 一 层 为 输出 层 。 
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se 
第 一 层 中 则 层 最 后 一 层 
图 6-18 多 层 感 知 器 网 络 的 结构 图 


6.3.2 BP 网 络 


感知 器 网 络 中 ,神经 元 的 变换 函数 采用 的 是 符号 函数 , 即 输出 为 二 值 量 1 或 一 1, 它 主要 
用 于 模式 分 类 。 当 神经 元 变换 函数 采用 S 形 函数 时 ,系统 的 输出 量 将 为 0~~1 的 连续 量 , 它 
可 实现 从 输入 到 输出 的 任意 非 线性 映射 。 由 于 连接 权 的 调整 采用 的 是 反 向 传播 (back 
propagation, BP) 的 学 习 算法 ,因此 该 网 络 也 称 为 BP 网 络 。 

反 向 传播 网 络 是 将 W-H 学 习 规 则 一 般 化 ,对 非 线 性 可 微分 函数 进行 权 值 训 练 的 多 层 
网 络 , 权 值 的 调整 采用 反 向 传播 的 学 习 算法 。 其 主要 思想 是 从 后 向 前 ( 反 向 ) 逐 层 传播 输出 
层 的 误差 ,以 间接 计算 出 隐 含 层 误差 。 算 法 分 为 两 部 分 ,第 一 部 分 ( 正 向 传播 过 程 ) 输 入 信息 
从 输入 层 经 隐 含 层 逐 层 计算 各 单元 的 输出 值 ; 第 二 部 分 ( 反 向 传播 过 程 ) 输 出 误差 逐 层 向 前 
计算 出 隐 含 层 各 单元 的 误差 ,并 用 此 误差 修正 前 层 权 值 。 

反 向 传播 包含 两 个 过 程 , 即 正 向 传播 和 反 向 传播 。 

(1) 正 向 传播 : 输入 的 样本 从 输入 层 经 过 隐 含 层 单元 一 层 一 层 进行 处 理 , 通 过 所 有 的 
隐 含 层 之 后 , 则 传 向 输出 层 ; 在 逐 层 处 理 的 过 程 中 ,每 一 层 神经 元 的 状态 只 对 下 一 层 神经 元 
的 状态 产生 影响 。 在 输出 层 把 当前 输出 和 期 望 输出 进行 比较 ,如 果 当 前 输出 不 等 于 期 望 输 
出 , 则 进入 反 向 传播 过 程 。 

(2) 反 向 传播 : 把 误差 信号 按照 原来 正 向 传播 的 通路 反 向 传 回 ,并 对 每 个 隐 含 层 的 各 
个 神经 元 的 连接 权 系统 进行 调整 ,以 使 期 望 误 差 信号 趋 于 最 小 。 

BP 网 络 的 计算 过 程 如 下 : 设 第 4 层 (9 一 1,2,…'Q) 的 神经 元 个 数 为 mm, 输入 到 第 v 层 
的 第 ; 个 神经 元 的 连接 权 系数 为 wg8 (i 二 1,2,… ,no; j 王 1,2,… ,ns-1) , 则 该 多 层 感知 器 网 络 
的 输入 /输出 变换 关系 为 


Wi 
= (6-10) 
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1 
1 二 ee 


其 中 ,w% 1; xz 一 外 zx? = f(s9) lm f= 92, “yile=r$ = Ls 


ss 

设 给 定 已 组 输入 /输出 样本 zp 二 [xh ,x zp ] do 一 [dnsdi dono] (p=1, 
2,…,P) ,利用 该 样本 集 首先 对 BP 网 络 进行 训练 , 即 对 网 络 的 连接 权 系数 进行 学 习 和 调整 ， 
以 使 该 网 络 实现 给 定 的 输入 /输出 映射 关系 。 经 过 训练 的 BP 网 络 ,对 于 不 是 样本 集中 的 输 
入 也 能 给 出 合适 的 输出 。 该 性 质 称 为 泛 化 (generalization) 功 能 。 从 函数 拟 合 的 角度 看 ,说 
明 BP 网 络 具有 插值 功能 。 

对 于 BP 神经 网 络 , 设 取 拟 合 误差 函数 的 代价 函数 为 


和 
E= 坪 Ddn—28) = DE, (6-11) 
即 


= zx%) (6-12) 


问题 是 如 何 调整 连接 权 系数 以 使 代价 丽 数 最 小 。 优化 计算 的 方法 很 多 ,比较 典型 的 
是 一 阶梯 度 法 , 即 最 速 下 降 法 。 

一 阶梯 度 法 寻 优 的 关键 是 计算 优化 目标 函数 ( 即 本 问题 中 的 误差 代价 函数 )E 对 寻 优 参 
数 的 一 阶 导数 。 即 


二 j= (6-13) 
a 
9 aE 
由 于 一 2 加， 因此 下 面 重点 讨论 了 的 计算 。 
du A 
对 于 第 Q 层 ,有 
aE, aE, dr 959， 本 
a a 5 和 (dp — XO)f (8) 79! 一 一 88z8 (6-14) 
其 中 
824 一 一 3 = (di — 28)7 (2) (6-15) 


7 ,8 及 zx ' 表 示 利 用 第 p 组 输入 样本 所 算得 的 结果 。 
对 于 第 (Q 一 1) 层 ,有 


a Pn 
= (> 一 号 o8]7G8 Da =— 6 rg (6-17) 
其 中 

51 = 一 i 四 iT 二 - (Za &ow 8) 7 G7) (6-18) 
显然 , 它 是 反 向 递 推 计算 的 公式 , 即 首先 计算 出 08 ,然后 递 推 计算 出 68 。 依 此 类 推 , 可 继 
续 反 向 递 推 计算 出 中 ,和 ,q 二 QX2,QX3,…,1。 从 式 中 可 以 看 出 ,在 38 的 表达 式 中 包 

含 了 导数 项 1(s$), 由 于 假定 /(。 ) 为 S 形 函数 ,因此 可 求 得 其 导数 
ME 0, (6-19) 


1+ ez 


f G8) ed > = pf Lf)] 一 pz 一 区) (6-20) 
(1 十 ez) 


最 后 可 归纳 出 BP 网 络 的 学 习 算 法 如 下 


wy (十 1) = wy(k)+aDy(k), a>0 (6-21) 
r 

Dy = 2 zg (6-22) 
生 
a 

0: = (Dor urha — zh) (6-23) 
k=1 

设 一 一头 ja 区) (6-24) 


其 中 ,g=Q,Q 一 1,… ,1 i=1,2y ,ng j= 二 1,2** Ng-16 

对 于 给 定 的 样本 集 , 目 标 函 数 已 是 全 体 连 接 权 系数 wy 的 函数 。 因 此 ,要 寻 优 的 参数 史 
个 数 比较 多 。 也 就 是 说 ,目标 函数 下 是 关于 连接 权 的 一 个 非常 复杂 的 超 曲面 ,这 就 给 寻 优 
带 来 一 系列 问题 。 其 中 最 大 的 一 个 问题 就 是 收敛 速度 慢 。 由 于 待 寻 优 的 参数 太 多 ,必然 导 
致 收敛 速度 慢 的 缺点 。 第 二 个 问题 就 是 系统 可 能 陷入 局 部 极 值 , 即 E 的 超 曲面 可 能 存在 多 
个 极 值 点 。 按 照 上 面 的 寻 优 算法 , 它 一 般 收敛 到 初 值 附近 的 局 部 极 值 。 

BP 网 络 具 有 以 下 主要 优点 : 

(1) 只 有 有 足够 多 的 隐 含 层 节点 和 隐 含 层 , BP 网 络 才 可 以 允 近 任意 的 非 线 性 映射 
关系 。 

(2) BP 网 络 的 学 习 算法 属于 局 部 双 近 的 方法 ,因此 它 具 有 较 好 的 泛 化 能 力 。 

BP 网 络 的 主要 缺点 如 下 : 

(1) 收敛 速度 慢 。 

(2) 容易 陷入 局 部 极 值 点 。 

(3) 难以 确定 隐 含 层 和 隐 含 层 节点 的 个 数 。 

由 于 BP 网 络 有 很 好 的 逼近 非 线性 映射 的 能 力 , 因 此 它 可 应 用 于 信息 处 理 、 图 像 识 别 、 
模型 辨识 ,系统 控制 等 方面 。 


6.3.3 ”BP 网 络 的 建立 及 执行 


1. 建立 BP 网 络 


首先 需要 选择 网 络 的 层 数 和 每 层 的 节点 数 。 

对 于 具体 问题 , 若 确 定 了 输入 变量 和 输出 变量 , 则 网 络 输入 层 和 输出 层 的 节点 个 数 与 输 
入 变量 个 数 及 输出 变量 个 数 对 应 。 隐 含 层 节点 的 选择 应 遵循 以 下 原则 : 在 能 正确 反映 输 
入 /输出 关系 的 基础 上 ,尽量 选取 较 少 的 隐 含 层 节点 ,而 使 网 络 尽量 简单 。 一 种 方法 是 先 设 
置 较 少 的 节点 ,对 网 络 进行 训练 :并 测试 网 络 的 和 逼 近 能 力 ,然后 逐渐 增加 节点 数 , 直 到 测试 的 
误差 不 再 有 明显 的 较 小 为 止 ; 另 一 种 方法 是 先 设置 较 多 的 节点 ,在 对 网 络 进 行 训 练 时 ,采用 
如 下 的 误差 代价 函数 


第 
路 二 立 DL 


P=1 t=1 g=1 汪 


ng-1 


[Me 


|w3|= E+e?) |ws | (6-25) 
2 gris 


j=1 


模式 识别 与 人 工 智能 (基于 MATLAB) 


其 中 ,下 仍 与 以 前 的 定义 相同 , 它 表示 输出 误差 的 平方 和 。 第 二 项 的 作用 相当 于 引入 一 个 
“遗忘 "项 ,其 目的 是 为 了 使 训练 后 的 连接 权 系数 尽量 小 。 可 以 求 得 这 时 Ey 对 ww? 的 梯度 为 
aE: _ aE 


dw gwy 

利用 该 梯度 可 以 求 得 相应 的 学 习 算法 。 在 训练 过 程 中 只 有 那些 确实 有 必要 的 连接 权 才 
予以 保留 ,而 那些 不 必要 的 连接 权 将 逐渐 衰减 为 零 。 最 后 可 去 掉 那 些 影响 不 大 的 连接 权 和 
相应 的 节点 ,从 而 得 到 一 个 适合 规模 的 网 络 结构 。 

若 采 用 单 隐 含 层 的 BP 网 络 , 使 得 隐 含 层 的 节点 数目 太 大 时 ,可 应 用 两 层 隐 含 层 的 BP 
网 络 。 一 般 而 言 , 采 用 两 层 隐 含 层 的 节点 总 数 比 采用 一 层 隐 含 层 所 用 的 节点 数 少 。 

网 络 的 节点 数 对 网 络 的 泛 化 能 力 影 响 很 大 ,节点 数 太 多 , 它 倾 向 于 记 住所 有 的 训练 数 
据 , 包 括 噪声 的 影响 ,反而 降低 了 泛 化 能 力 ， 而 节点 数 太 少 , 它 不 能 拟 合 样本 数据 ,因此 也 谈 
不 上 有 较 好 的 泛 化 能 力 。 


十 ssgn(ogy ) (6-26) 


2. 确定 网 络 的 初始 权 值 ov 


BP 网 络 的 各 层 初始 权 值 一 般 选 取 一 组 较 小 的 非 零 随机 数 。 为 了 避免 出 现 局 部 极 值 问 
题 , 可 选取 多 组 初始 权 值 , 最 后 选用 最 好 的 一 种 。 


3. 产生 训练 样本 


一 个 性 能 良好 的 神经 网 络 离 不 开学 习 , 神 经 网 络 的 学 习 是 针对 样本 数据 进行 学 习 的 。 
因此 ,数据 样本 对 于 神经 网 络 的 性 能 有 着 至 关 重 要 的 影响 。 

建立 样本 数据 之 前 ,首先 要 收集 大 量 的 原始 数据 ,并 在 大 量 的 原始 数据 中 确定 出 最 主要 
的 输入 模式 ,分 析 数 据 的 相关 性 ,选择 其 中 最 主要 的 输入 模式 ,并 确保 所 选择 的 输入 模式 互 
不 相同 。 

在 确定 了 最 重要 的 输入 模式 后 ,需要 进行 尺度 变换 和 预 处 理 。 在 进行 尺度 变换 之 前 , 必 
须 检 查 是 否 存在 异常 点 。 如 果 存 在 异常 点 , 则 异常 点 必须 剔除 。 通 过 对 数据 的 预 处 理 分 析 
还 可 以 检验 所 选择 的 输入 模式 是 否 存 在 周期 性 、 固 定 变化 趋势 或 其 他 关系 。 对 数据 的 预 处 
理 就 是 要 对 数据 进行 变换 ,从 而 使 神经 网 络 更 容易 学 习 和 训练 。 

对 于 一 个 复杂 问题 ,应 该 选择 多 少 个 数据 ,也 是 一 个 关键 性 问题 。 系 统 的 输入 /输出 关 
系 就 包含 在 样本 数据 中 。 所 以 一 般 来 说 , 取 的 数据 越 多 ,学 习 和 训练 的 结果 越 能 正确 反映 输 
入 /输出 关系 。 但 是 选 太 多 的 数据 将 增加 收集 、 分 析 数 据 及 网 络 训 练 所 付出 的 代价 。 当 然 ， 
选择 太 少 的 数据 则 可 能 得 不 到 正确 的 结果 。 事 实 上 数据 的 多 少 取决 于 许多 因素 ,如 网 络 的 
大 小 、 网 络 测试 的 需要 和 输入 /输出 的 分 布 等 。 其 中 ,网 络 的 大 小 是 最 关键 的 因素 。 通 常 较 
大 的 网 络 需要 较 多 的 训练 数据 。 经 验 规则 : 训练 模式 应 是 连接 权 总 数 的 3~5 倍 。 

样本 数据 包含 两 部 分 : 一 部 分 用 于 网 络 的 训练 ; 另 一 部 分 用 于 网 络 的 测试 。 测 试 数据 
应 是 独立 的 数据 集合 。 一 般 而 言 ,将 收集 到 的 样本 数据 随机 地 分 成 两 部 分 ,一 部 分 作 训练 数 
据 , 则 另 一 部 分 可 作为 测试 数据 。 

影响 样本 数据 大 小 的 另 一 个 因素 是 输入 模式 和 输出 结果 的 分 布 , 对 数据 预先 加 以 分 类 
可 以 减少 所 需 的 数据 量 。 相 反 ,数据 稀薄 不 匀 甚 至 互相 覆盖 , 则 势必 要 增加 数据 量 。 
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4. 训练 网 络 


在 对 网 络 进行 训练 的 过 程 中 ,训练 样本 需要 反复 使 用 。 对 所 有 训练 样本 数据 正 向 运行 
一 次 并 反 传 修改 连接 权 一 次 称 为 一 次 训练 (或 一 次 学 习 ) ,这 样 的 训练 需要 反复 进行 ,直至 获 
得 合适 的 映射 结果 。 通 常 训练 一 个 网 络 需要 多 次 。 

特别 应 该 注意 的 是 ,并 非 训练 的 次 数 越 多 , 越 能 得 到 正确 的 输入 /输出 的 映射 关系 。 训 
练 网 络 的 目的 在 于 找 出 蕴含 在 样本 数据 中 的 输入 和 输出 之 间 的 本 质 联系 ,从 而 对 于 未 经 训 
练 的 输入 也 能 给 出 合适 的 输出 , 即 具 备 泛 化 功能 。 由 于 所 收集 的 数据 都 是 包含 噪声 的 ,训练 
的 次 数 过 多 ,网 络 会 将 包含 噪声 的 数据 都 记录 下 来 ,在 极端 的 情况 下 ,训练 后 的 网 络 可 以 实 
现 查 表 的 功能 。 但 是 ,对 于 新 的 输入 数据 却 不 能 给 出 合适 的 输出 , 即 并 不 具有 很 好 的 泛 化 能 
力 。 网 络 的 性 能 主要 用 它 的 泛 化 能 力 来 衡量 ,并 不 是 用 对 训练 数据 的 拟 合 程度 来 衡量 ,而 是 
要 用 一 组 独立 的 数据 来 加 以 测试 和 检验 。 


5. 测试 网 络 

用 一 组 独立 的 测试 数据 测试 网 络 的 性 能 ,在 测试 时 需要 保持 连接 权 系 数 不 改 变 , 只 用 该 
数据 作为 网 络 的 输入 , 正 向 运行 该 网 络 ,检验 输出 的 均 方 误差 。 

6. 判断 网 络 及 


在 实际 确定 BP 网 络 时 ,通常 应 将 训练 和 测试 交替 进行 ， 
即 每 训练 一 次 ,同时 用 测试 数据 测试 一 遍 网 络 , 画 出 均 方 误 
差 随 训练 次 数 的 变化 曲线 ,如 图 6-19 所 示 。 从 误差 曲线 来 
看 ,在 用 测试 数据 检验 时 , 均 方 误差 开始 逐渐 减 小 , 当 训 练 次 


测试 数据 


训练 数据 


数 青 增加 时 ,测试 检验 误差 反而 增加 。 误 差 曲 线 上 极 小 点 所 0 训练 次 数 
对 应 的 即 为 恰当 的 训练 次 数 , 若 再 训练 即 为 过 度 训练 ”。 加 天 记 册 表册 


6.3.4 ”BP 网 络 分 类 器 的 MATLAB 实现 


在 人 工 神 经 网 络 的 实际 应 用 中 ,BP 网 络 广泛 应 用 于 函数 到 近 、 模 式 识别 /分 类 、 数 据 不 
缩 等 。80% 一 90% 的 人 工 神 经 网 络 模型 采用 BP 网 络 或 它 的 变化 形式 , 它 也 是 前 馈 网 络 的 
核心 部 分 ,体现 了 人 工 神经 网 络 最 精华 的 部 分 。 

下 面 使 用 MATLAB 构建 BP 神经 网 络 。 


1. 网 络 的 构建 


首先 需要 构造 一 个 网 络 构架 ,函数 newff() 就 是 用 于 构建 神经 网 的 。 

它 需 要 四 个 输入 条 件 ,依次 是 : 由 R 维 的 输入 样本 最 大 最 小 值 构成 的 RX2 维和 矩阵 、 各 
层 的 神经 元 个 数 、 各 层 神 经 元 的 传递 函数 以 及 训练 用 函数 的 名 称 。 下 面具 体 介 绍 这 些 参数 
及 其 选择 。 

网 络 层 数 : BP 网 络 可 以 包含 不 同 的 隐 层 。 但 理论 上 已 经 证 明 ,在 不 限制 隐 层 节点 数 的 
情况 下 ,两 层 ( 只 有 一 个 隐 层 ) 的 BP 网 络 可 以 实现 任意 非 线性 映射 。 因 此 选用 两 层 BP 网 络 


模式 识别 与 人 工 智能 (基于 MATLAB) 


即 可 。 

输入 层 节点 数 m: 在 输入 层 起 缓冲 存储 器 的 作用 , 它 接受 外 部 的 输入 数据 ,因此 其 节点 
数 取决 于 矢量 的 维 数 。 

输出 层 节点 数 ”: 输出 层 的 节点 数 取决 于 两 个 方面 ,输出 数据 类 型 和 表示 该 类 型 所 需 数 
据 大 小 。 当 BP 网 络 用 于 模式 分 类 时 , 则 输出 层 的 节点 数 可 根据 待 分 类 模式 数 来 确定 。 

隐 含 层 节 点 数 : 一 般 认为 , 隐 层 节点 数 与 求解 问题 的 要 求 . 输 入 输出 单元 数 多 少 都 有 直接 
的 关系 。 对 于 用 于 模式 识别 /分 类 的 BP 网 络 ,根据 前 人 经 验 , 可 以 参照 公式 S1 二 Vn 十 m 十 a 
进行 设计 。 其 中 ,m 为 输入 层 节 点 数 ; n 为 输出 层 节点 数 ; a 为 1 一 10 的 常数 。 


传输 函数 : BP 网 络 中 的 传输 函数 通常 采用 S 形 函数 f(z)= 一 上 ,在 某 些 特 定 情况 


Ite *” 
下 还 可 能 采用 纯 线 性 (pureline) 函数 。 
训练 函数 : BP 神经 网 络 的 训练 函数 有 traingd ,traingdm traingdx,、 trainrp、 traincgf、 
traincgp,\traincgb ,trainscg trainbfg、trainoss,trainlm,trainbr 等 ,每 种 训练 函数 各 有 特点 ， 
但 是 没有 一 种 函数 能 适应 所 有 情况 下 的 训练 过 程 。 代 码 如 下 : 


net = newff (minmax(p), [12,4], { 'tansig', 'l0ogsig'}, 'trainlm'); 


2. 网 络 的 初始 化 


网 络 的 输入 向 量 : 天王 (ayaz，…dan)。 
网 络 的 目标 向 量 : 大 一 (yyz yo)。 
网 络 初 始 化 程序 : net 二 init(net)。 

将 所 用 的 数据 以 文本 文件 的 形式 输入 ,如 果 所 收集 的 数据 不 在 同一 数量 级 ,要 进行 归 一 
化 处 理 。 归 一 化 是 为 了 加 快 训练 网 络 的 收敛 性 ,也 可 以 不 进行 归 一 化 处 理 。 归 一 化 的 具体 
作用 是 归纳 统一 样本 的 统计 分 布 性 。 归 一 化 在 0 一 1 是 统计 的 概率 分 布 , 归 一 化 在 一 1 一 十 1 
是 统计 的 坐标 分 布 。 归 一 化 有 同一 、 统 一 和 合 一 的 意思 。 无 论 是 为 了 建 模 还 是 为 了 计算 , 首 
先 基 本 度量 单位 要 统一 ,神经 网 络 是 以 样本 在 事件 中 的 统计 分 布 概率 来 进行 训练 (概率 计 
算 ) 和 预测 的 , 归 一 化 是 统一 在 0 一 1 的 统计 概率 分 布 。 

当 所 有 样本 的 输入 信号 都 为 正 值 时 ,与 第 一 隐 含 层 神 经 元 相连 的 权 值 只 能 同时 增加 或 
减 小 ,从 而 导致 学 习 速 度 很 乙 。 为 了 避免 出 现 这 种 情况 ,加 快 网 络 学 习 速 度 ,可 以 对 输入 信 
号 进行 归 一 化 ,使 得 所 有 样本 的 输入 信号 其 均值 接近 于 0 或 与 其 均 方差 相 比 很 小 。 

归 一 化 是 因为 sigmoid 函数 的 取 值 是 0 一 1, 网 络 最 后 一 个 节点 的 输出 也 是 如 此 ,所 以 经 
常 要 对 样本 的 输出 进行 归 一 化 处 理 。 所 以 这 样 做 分 类 的 问题 时 用 [0. 9 0. 1 0. 1] 就 要 比 用 
[100] 要 好 。 

程序 代码 如 下 : 


【pn, minp, maxp】〗= premnmx(p); ( 归 一 化 处 理 , 归 一 化 后 的 数据 将 分 布 在 [ -1,1] 区 间 内 . ) 
【r,q】= size(p); $ 训练 输入 样本 集 p 的 行 数 * 和 列 数 q 
【s2,qjsize(t); % 训练 目标 样本 集 t 的 行 数 s2 和 列 数 q 
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3. 训练 参数 初始 化 


隐 含 层 节点 数 的 确定 使 用 公式 S1 = Vn 十 m 十 a。 其 中 ,m 为 输入 层 节点 数 ; n 为 输出 
层 节 点 数 ; a 为 1 一 10 的 常数 。 因 为 此 处 是 3 输入 4 输出 的 神经 网 络 ,所 以 隐 含 层 节 点 数 选 
择 9。 代 码 如 下 : 


max_epoch= x; 最 大 训练 次 数 x 
err goal = E; 名 期 望 误差 
4. 网 络 训 练 


网 络 训练 代码 如 下 : 


net = train(net, p,t); 


5. 网 络 仿真 
网 络 仿真 代码 如 下 : 


y= sim(net,p_test); 


6. 结果 对 比 


在 本 例 中 采用 表 1-2 的 三 元 色 数据 ,希望 按照 颜色 数据 所 表征 的 特点 ,将 数据 按照 各 自 
所 属 的 类 别 进行 归 类 。 其 中 ,前 29 组 数据 已 确定 类 别 , 后 30 组 数据 待 确定 类 别 。 

在 此 使 用 BP 网 络 对 数据 分 类 。BP 网 络 的 输入 和 输出 层 的 神经 元 数目 由 输入 和 输出 
向 量 的 维 数 确 定 。 输 入 向 量 由 A、B、C 这 三 列 决定 ,所 以 输入 层 的 神经 元 数目 为 3; 输出 结 
果 有 4 种 模式 ,用 1.2、3、4 代表 4 种 输出 ,因此 输出 层 的 神经 元 个 数 为 4。 模式 识别 程序 
如 下 : 


构建 训练 样本 中 的 输入 向 量 p 

p=[1739.94 373.3 1756.77 864.45 222.85 877.88 1803.58 2352.12 401.3 363.34 
1571.17 104.8 499.85 
2297.28 2092.62 1418.79 1845.59 2205.36 2949.16 1692.62 1680.67 2802.88 
172.78 2063.54 1449.58 
1651.52 341.59 291.02 237.63; 
1675.15 3087.05 1652 1647.31 3059.54 2031.66 1583.12 2557.04 3259.94 
3477.95 1731.04 3389.83 
3305.75 3340.14 3177.21 1775.89 1918.81 3243.74 3244.44 1867.5 1575.78 
3017.11 3084.49 3199.76 
1641.58 1713.28 3076.62 3095.68 3077.78; 
2395.96 2429.47 1514.98 2665.9 2002.33 3071.18 2163.05 1411.53 2150.98 
2462.86 1735.33 2421.83 
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2196.22 535.62 584.32 2772.9 2226.49 1202.69 662.42 2108.97 1725.1 1984.98 
2328.65 1257.21 

3405.12 1570.38 2438.63 2088.95 2251.96]; 

名 构建 训练 样本 中 的 目标 向 量 t 


DO 
U0 000090 0 0 OO 0 0 
D0 0 0 0 Uo 0 0 00 0 DL 0 0 0 0 
VE OO 0 0 OT 


多 创建 一 个 BP 网 络 , 隐 含 层 有 12 个 神经 元 ,传递 函数 为 tansig 

和 中 间 层 有 4 个 神经 元 ,传递 函数 为 logsig, 训练 函数 为 trainlm 

net = newff(minmax(p),[12,4], {'tansig', 'logsig'}, 'trainlm'); 

多 训练 次 数 ,默认 为 100 

net. trainParam. epochs = 500; 

多 训练 的 目标 ,默认 为 0 

net. trainParam. goal = 0. 01; 

名 神经 网 络 训练 

net = train(net, p,t); 
测试 样本 进行 分 类 
p_test=[1702.8 1877.93 867.81 1831.49 460.69 2374.98 2271.89 1783.64 

198.83 1494.63 1597.03 1598.93 1243.13 2336.31 354 2144.47 
426.31 1507.13 343.07 2201.94 2232.43 1580.1 1962.4 1495.18 
1125.17 24.22 1269.07 1802.07 1817.36 1860.45; 


1639.79 1860.96 2334.68 1713.11 3274.77 3346.98 3482.97 1597.99 
3250.45 2072.59 1921.52 1921.08 1814.07 2640.26 3300.12 2501.62 
3105.29 1556.89 3271.72 3196.22 3077.87 1752.07 1594.97 1957.44 
1594.39 3447.31 1910.72 1725.81 1927.4 1782.88; 


2068.74 1975.3 2535.1 1604.68 2172.99 975.31 946.7 2261.31 
2445.08 2550.51 2126.76 1623.33 3441.07 1599.63 2373.61 
591.51 2057.8 1954.51 2036.94 935.53 1298.87 2463.04 1835.95 
3498.02 2937.73 2145.01 2701.97 1966.35 2328.79 1875.83]; 

Y= sim(net,p_test); 


运行 上 述 程序 代码 后 ,可 以 得 到 网 络 的 训练 结果 如 下 : 


TRAINLM - calcjx, Epoch 0/500, MSE 0.303441/0. 01, Gradient 173.123/1le- 010 
TRAINLM— calcjx, Epoch 25/500, MSE 0.0862919/0. 01, Gradient 0.0209707/1e — 010 
TRAINLM - calcjx, Epoch460/500, MSE 0.00159/0. 01, Gradient 0.226/1e— 07 
TRAINLM, Performance goal met. 


图 6-20 所 示 为 神经 网 络 训练 模块 ,在 这 里 可 以 查看 训练 结果 、 训 练 状态 等 ,可 见 到 网 络 
经 过 460 次 训练 后 即 可 达到 需要 的 误差 要 求 ,结果 如 图 6-21 所 示 。 从 图 6-21 中 可 以 看 出 网 
络 具有 非常 好 的 学 习性 能 ,网 络 输出 与 目标 输出 的 误差 已 经 达到 了 需要 的 要 求 。 
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Training: Levenberg-Marquardt (uainim) 
Performance: Mean Squared Error (mse) 
Calculations: MEX 
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图 6-21 训练 曲线 图 
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对 预测 样本 值 的 仿真 输出 结果 如 下 : 
本 
1 一 18 列 
0.0144 0.0144 0.4828 0.0144 0.9788 0.0353 0.0353 0.0144 
0.9788 0.0877 0.0144 0.0239 0.0525 0.0353 0.9788 0.0353 
0.9788 0.0144 0.9857 0.9857 0.3637 0.9857 0.0187 0.0300 
0.0300 0.9857 0.0187 0.9528 0.9857 0.8961 0.1056 0.0300 
0.0187 0.0300 0.0187 0.9857 0.0057 0.0057 0.0020 0.0057 
0.0221 0.9693 0.9693 0.0057 0.0221 0.0006 0.0057 0.0822 
0.0001 0.9693 0.0221 0.9693 0.0221 0.0057 0.0264 0.0264 
0.0233 0.0264 0.0565 0.0050 0.0050 0.0264 0.0565 0.0453 
0.0264 0.0099 0.8830 0.0050 0.0565 0.0050 0.0565 0.0264 
19 一 30 列 
0.9787 0.0353 0.0353 0.0144 0.0144 0.0525 0.0525 0.9788 
0.0568 0.0144 0.0144 0.0144 0.0187 0.0300 0.0300 0.9857 
0.9857 0.1056 0.1056 0.0187 0.1208 0.9857 0.9857 0.9857 
0.0221 0.9693 0.9693 0.0057 0.0057 0.0001 0.0001 0.0221 
0.0001 0.0057 0.0057 0.0057 0.0565 0.0050 0.0050 0.0264 
0.0264 0.8830 0.8830 0.0565 0.8643 0.0264 0.0264 0.0264 
将 BP 网 络 的 识别 结果 与 模糊 模式 识别 器 的 分 类 结果 进行 对 比 ,结果 如 表 6-1 所 示 。 
表 6-1 模糊 系统 分 类 结果 与 BP 神经 网 络 分 类 结果 对 比 
序 号 A B C 模糊 分 类 系统 测试 结果 | BP 神经 网 络 分 类 结果 
1 1702.8 1639.79 2068. 74 3 3 
1877. 93 1860. 96 1975. 3 3 3 
3 867.81 2334. 68 2535 1 4 
4 1831. 49 1713. 11 1604. 68 3 3 
5 460. 69 3274. 77 2172. 99 4 4 
6 2374. 98 3346. 98 975. 31 2 4/2 
7 2271. 89 3482. 97 946.7 2 4/2 
8 1783. 64 1597. 99 2261. 31 3 1/3 
9 198. 83 3250. 45 2445. 08 4 4 
10 1494. 63 2072. 59 2550. 51 3 
对 1597. 03 1921. 52 2126. 76 3 3 
12 1598. 93 1921. 08 1623. 33 3 3 
13 1243. 13 1814. 07 3441. 07 1 
14 2336. 31 2640. 26 1599. 63 2:5 一 
15 354 3300. 12 2373. 61 4 4 
16 2144. 47 2501. 62 591. 51 2 2 
下 426. 31 3105. 29 2057.8 4 4 
18 1507. 13 1556. 89 1954. 51 3 3 
19 343. 07 3271.72 2036. 94 4 4 
20 2201. 94 3196. 22 935. 53 2/4 
21 2232. 43 3077. 87 1298. 87 2 2/4 


续 表 
学 号 A B C 模糊 分 类 系统 测试 结果 | BP 神经 网 络 分 类 结果 
2 1580.1 1752. 07 2463. 04 3 3 
23 1962.4 1594. 97 1835. 95 3 1/3 
24 1495. 18 1957. 44 3498. 02 1 1 
25 1125,.17 1594. 39 2937.73 1 L 
26 24. 22 3447. 31 2145. 01 4 4 
27 1269. 07 1910.72 2701. 97 1 3 
28 1802.07 1725. 81 1966. 35 3 3 
29 1817. 36 1927. 4 2328.79 5 
30 1860. 45 1782. 88 1875. 13 3 : 


从 表 6-1 中 的 数据 可 以 看 出 ,系统 不 够 理想 。 此 时 ,可 增加 训练 数据 和 训练 次 数 来 提高 
系统 的 识别 能 力 。 此 外 ,还 可 以 使 用 其 他 的 训练 函数 训练 BP 神经 网 络 。 


6.3.5 ”BP 网 络 的 其 他 学 习 算 法 的 应 用 


在 应 用 其 他 学 习 方 法 训练 BP 网 络 之 前 , 先 将 样本 数据 (bp_train_sample_data. dat) \ 目 
标 数据 (bp_train_target_data. dat) 及 待 分 类 数据 (bp_simulate_data. dat) 存 放 到 数据 文件 。 
各 文件 内 容 及 格式 如 图 6-22 所 示 。 


867.81 2334. 68 2535, 1 
1831. 49 1713. 11 1604.68 
460. 69 3274.77 2172 99 
2374. 98 3346. 98 975. 31 
2271. 89 3482. 97 946.7 
1783. 64 1597. 99 2261, 31 
198. 83 3250. 45 2445, 08 
1494. 63 2072. 

1597. 03 1921. 52 2 

16 的 1921. 08 1023. 3 


0 
(b) bp_train_target_data.dat 文 件 内 容 及 格式 (ce) data_sample.dat 文 件 内 容 及 格式 


图 6-22 数据 文件 内 容 及 格式 


1. 采用 梯度 法 进行 学 习 
前 向 神经 网 络 BP 算法 采用 最 速 下 降 寻 优 算法 , 即 梯度 法 。 假 设 有 N 对 学 习 样本 ,采取 
批 处 理学 习 方 法 ,目标 函数 为 EE = 直 TY 其 中 Tx \Yx 分 别 为 第 K 对 样本 的 期 


望 输出 和 实际 输出 向 量 。E 反映 网 络 输出 与 样本 的 总 体 误差 。 学 习 过 程 就 是 通过 修改 各 神 
经 元 之 间 的 权 值 ,使 得 目标 函数 EE 的 值 最 小 , 权 值 按 下 列 公 式 修正 
一 二 (6-27) 

其 中 ,7 为 学 习 速 率 。 

应 用 traingd 函数 训练 ,应 调整 全 值 和 国 值 沿 着 表现 函数 的 负 梯 度 方向 。 如 果 应 用 梯度 
下 降 法 训练 函数 ,需要 在 训练 之 前 将 网 络 构 成 函数 的 相应 参数 trainFcn 设置 为 traingd。 

与 函数 traingd 有 关 的 训练 参数 有 : epochs、goal、lr、max_fail .min_grad show time, 如 
果 不 设置 就 表示 应 用 默认 值 。 

net. trainParam. epochs 最 大 训练 次 数 (默认 为 10) 

net. trainParam. goal 训练 要 求 精 度 ( 默 认为 0) 

net. trainParam. lr 学 习 率 (默认 为 0.01) 

net. trainParam. max_fail 最 大 失败 次 数 ( 默 认为 5) 

net. trainParam. min_grad 最 小 梯度 要 求 (默认 为 le 一 10) 


net. trainParam. show 显示 训练 迭代 过 程 (NaN 表示 不 显示 ,默认 为 25) 
net. trainParam. time 最 大 训练 时 间 ( 默 认为 inf) 


其 中 学 习 速 率 是 很 重要 的 参数 , 它 和 负 梯 度 的 乘积 决定 了 权 值 和 效 值 的 调整 量 ,学 习 速 
率 越 大 ,调整 步伐 越 大 。 学 习 速 率 过 大 ,算法 会 变 得 不 稳定 ; 但 是 如 果 学 习 速 率 太 小 ,算法 
收敛 的 时 间 就 会 增加 。 

训练 过 程 中 ,只 要 满足 下 面 5 个 条 件 之 一 ,训练 就 会 停止 : 

(1) 超过 最 大 迭代 次 数 epochs。 

(2) 表现 函数 值 小 于 误差 指标 goal 。 

(3) 梯度 值 小 于 要 求 精度 mingrad。 

(4) 训练 所 用 时 间 超 过 时 间 限 制 time。 

(5) 最 大 失败 次 数 超过 次 数 限制 max_fail。 

在 MATLAB 中 创建 BP 网 络 调 用 相应 的 函数 ,代码 如 下 : 


function 上 = bpfun() 

% Neural Network 

% build train and simulate 

Sbpfun.m 

名 输入 矩阵 的 范围 (数据 源 ) 

P= [20 3000;1400 3500;500 3500;]; 

名 创建 网 络 

net = newff(P, [12 4 1],{'tansig' 'tansig' 'purelin', 'traingd'}); 
名 初始 化 神经 网 络 


第 6 章 ”和 神经 网 络 聚 类 设计 


net = init(net) 7 
多 设置 训练 的 参数 
名 停止 方式 按键 
Spause; 
名 两 次 显示 之 间 的 训练 步 数 默认 为 25 
net.trainParam. show = 50; 
#%1r 不 能 选择 太 大 , 太 大 了 会 造成 算法 不 收敛, 太 小 了 会 使 训练 时 间 太 长 
一般 选择 0.01 一 0.1 
各 训练 速度 
net. trainparam. lr = 0.05; 
各 训练 次 数 ,默认 为 100 
net. trainParam. epochs = 3000; 
训练 时 间 , 默认 为 inf, 表示 训练 时 间 不 限 
net. trainParanm. time = 6000; 
训练 的 目标 ,默认 为 0 
net. trainParam. goal = 0.001; 
建立 源 数 据 的 矩阵 
SourceDataConvert = importdata( 'bp_train sample data. dat'); 
SourceData = SourceDataConvert' 
TargetConvert = importdata( 'bp_ train target data. dat'); 
Target = TargetConvert' 
名 神经 网 络 训练 
net = train(net, SourceData, Target) 
显示 训练 后 的 各 层 权重 
matl = cell2mat(net. IW(1,1)) 
mat2 = cell2mat (net. LW(2,1)) 
mat3 = cell2mat (net. LW(3,2)) 
% 读 取 仿 真 文件 数据 
simulate data convert = importdata( 'bp_simulate data. dat'); 
simulate data= simulate data convert'; 
result = sim(net, simulate data) 


多 次 运行 上 述 程序 ,可 以 得 到 满足 误差 要 求 的 网 络 的 训练 结果 : 


T TRAINLM - calcjx, Epoch 0/3000, Time 0.0% ,MSE 14.4178/0. 001, Gradient 10741.9/1le— 010 
TRAINLM - calcjx, Epoch 40/3000, Time 0.0% ,MSE 0.000438/0. 001, Gradient 0.196/1e— 07 
TRAINLM, Performance goal met 


图 6-23 展示 了 神经 网 络 训 练 模块 ,在 这 里 可 以 查看 训练 结果 、 训 练 状态 等 。 训 练 后 即 
可 达到 误差 要 求 , 结 果 如 图 6-24 所 示 。 
对 预测 样本 值 的 仿真 输出 结果 如 下 : 


result = 

T=9 列 

3.0016 3.0016 0.9969 3.0011 3.9847 1.9460 1.9460 3.0016 3:9873 
10 一 18 列 

0.9973 3.0016 2.9982 0.9969 2.0245 3.9873 1.9460 3.9850 3.0016 
19 一 27 列 

3.8844 1.9460 2.0245 2.5884 3.0016 0.9969 0.9969 3.9816 0.9969 
28 一 31 列 

3.0016 3.0016 3.0016 3.0015 


0 

0:00:00 
8.51 
56.17e+03 


Validation Checks: 
Plots 


[reing statea] (piorrainstate) 
[negressions] Poweoression) 


图 6-23 神经 网 络 训练 模块 
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图 6-24 训练 曲线 图 
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2. 采用 带动 量 最 速 下 降 法 进行 学 习 

带动 量 最 速 下 降 法 在 非 二 次 型 较 强 的 区 域 能 使 目标 函数 收敛 较 快 。BP 算法 的 最 速 下 
降 方向 即 目标 函数 巨 在 权 值 空间 上 的 负 梯 度 方向 ,在 无 约束 优化 目标 函数 巨 时 , 相 邻 的 两 
个 搜索 方向 正 交 。 因 此 ,当权 值 接 近 于 极 值 区 域 时 ,每 次 迭代 移动 的 步 长 很 小 ,呈现 出 “ 锯 
齿 ” 现 象 ,严重 影响 了 收敛 速率 ,有 了 时 甚至 不 能 收敛 而 在 局 部 极 值 区 域 振荡 。 为 此 ,提出 了 各 
种 加 速 学 习 速率 的 优化 算法 ,其 中 加 动量 项 的 算法 为 当前 广 为 应 用 的 方法 ,其 权 值 修正 公式 


为 Aww 41) 一 一 9 2 十 aAws(1 一 1) wa 为 动量 系数 。 引 入 动量 项 后 ,使 得 调节 向 着 底部 的 平 


均 方向 变化 ,不 致 产生 大 的 摆动 , 即 起 到 缓冲 平滑 的 作用 。 若 系统 进入 误差 函数 面 的 平坦 
区 ,那么 误差 变化 将 很 小 ,动量 项 的 引入 使 得 调节 尽快 脱离 这 一 平坦 区 ,有 助 于 缩短 向 极 值 
逼近 的 时 间 。 所 以 ,动量 项 的 引入 ,加快 了 学 习 速 度 。 

在 训练 过 程 中 , 若 能 选择 合适 的 速率 ,使 它 的 值 尽 可 能 大 但 又 不 至 于 引起 振荡 , 则 能 使 
训练 快速 达到 要 求 。 

在 MATLAB 中 创建 BP 网 络 的 程序 代码 如 下 : 


function 上 = bpfun() 

% Neural Network 

$% build train and simulate 

$% bpfun.m 

输入 矩阵 的 范围 (数据 源 ) 

P= [20 3000;1400 3500;500 3500; ]; 
创建 网 络 

net = newff(P, [12 4 1],{'tansig' 'tansig' 'purelin', 'traingdx'}); 
初始 化 神经 网 络 

net = init(net); 

设置 训练 的 参数 

停止 方式 按键 

% pause; 

两 次 显示 之 间 的 训练 步 数 默认 为 25 

net. trainParam. show = 50; 

%1r 不 能 选择 太 大 , 太 大 了 会 造成 算法 不 收敛 , 太 小 了 会 使 训练 时 间 太 长 
一般 选 择 0.01 一 0.1 

% 训练 速度 

net. trainParam. lr = 0.05; 

% 速度 增长 系数 

net. trainParam. lr_inc=1.2; 
速度 下 调 系 数 

net. trainParam. lr dec= 0.8; 

添加 动量 因子 

net.trainParam. mc = 0.9; 

% 训练 次 数 ,默认 为 100 

net. trainParam. epochs = 3000; 

名 训练 时 间 , 默认 为 inf, 表示 训练 时 间 不 限 
net. trainparam. time = 6000; 

训练 的 目标 ,默认 为 0 


Det.trainParam. goal = 0.001; 

建立 源 数 据 的 矩阵 

SourceDataConvert = importdata('bp train sample data.dat'); 
SourceData = SourceDataConvert' 
TargetConvert = importdata( 'bp train target data. dat'); 
Target = TargetConvert' 

和 神经 网 络 训练 

net = train(net, SourceData, Target) 

和 显示 训练 后 的 各 层 权重 
matl = cell2mat (net. IW(1,1)) 
mat2 = cell2mat (net. LN(2,1)) 
mat3 = cell2mat (net. LW(3,2)) 

入 读 取 仿 真 文件 数据 

simulate data convert = importdata( 'bp_simulate data. dat'); 
simulate data= simulate data convert'; 

result = sim(net, simulate data) 


多 次 运行 上 述 程序 ,可 以 得 到 满足 误差 要 求 的 网 络 的 训练 结果 : 


TRAINLM — calcjx, Epoch 0/3000, Time 0.0% ,MSE 14.0262/0.001, Gradient 7315.37/1e— 010 
TRAINLM — calcjx, Epoch 335/3000, Time 0.0% ,MSE 0.000442/0.001,Gradient1.19/1e—7 
TRAINLM, Performance goal met 


神经 网 络 训 练 工具 如 图 6-25 所 示 ,训练 后 即 可 达到 误差 要 求 ,结果 如 图 6-26 所 示 。 


Training: Levenberg-Marquardt (trainlm) 
Performance: Mean Squared Error (mse) 
Calculations: MEX 


0 于 355iterations | 3000 


{plotperform) 
| (plottrainstate) 
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WW Performance goal met. 
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6-25 神经 网 络 训练 工具 箱 
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图 6-26 训练 曲线 图 
对 预测 样本 值 的 仿真 输出 结果 如 下 : 


result = 

1 一 9 列 

3.0296 2.9309 1.5220 2.9256 3.9876 1.9889 1.9904 3.0315 3.9897 
10 一 18 列 

1.3982 3.0274 2.5501 1.0009 2.0562 3.9843 2.0376 3.9917 3.0733 
19 ~ 27 列 

3.9915 2.0045 2.0212 1.8679 2.9285 0.9716 1.0037 4.0013 1.4880 
28 一 31 列 

2.9780 2.9835 2.9379 3.0032 


3. 采用 共 斩 梯 度 法 进行 学 习 
共 斩 梯 度 法 是 重要 的 无 约束 优化 方法 , 它 利用 一 维 搜索 所 得 到 的 极 小 点 处 的 最 速 下 降 
方向 生成 共 罗 方 向 ,并 据 此 搜索 目标 函数 极 值 。 共 轿 梯度 法 的 计算 步骤 和 梯度 法 的 计算 步 
又 差别 不 大 ,主要 差别 在 于 搜索 方向 的 不 同 , 即 每 一 步 的 方向 不 再 是 梯度 方向 ,而 是 一 种 共 
绒 的 方向 ,由 原来 的 负 梯 度 方向 加 上 一 个 修正 项 (前 一 点 的 梯度 乘 以 适当 的 系数 ) 得 到 共 罗 f 
方向 。 设 梯度 向 量 为 g. 共 f 向 量 为 P, 则 第 次 的 共 轿 方向 为 
一 Se， k=0 
已: = (6-28) 
Bt 二 BiPe, £1 
其 中 ;Bei 一 gxgh/gr-184-1 为 标量 ,其 大 小 必须 保证 PE 和 了 :为 共 斩 方 向 。 因 此 ,可 以 说 
共 轿 梯度 法 综合 利用 过 去 的 梯度 和 现在 某 点 的 梯度 信息 ,用 其 线性 组 合 来 构造 更 好 的 搜索 


方向 ,这 样 权 值 的 修正 公式 就 为 wi (k) 二 ws(k 一 1) 十 pp。 

共 罗 梯度 法 在 二 次 型 较 强 的 区 域 能 使 目标 函数 收敛 较 快 。 而 一 般 目 标 函 数 在 极 小 点 附 
近 的 形态 近似 于 二 次 函数 , 故 共 氏 梯 度 法 在 极 小 点 附近 有 较 好 的 收敛 性 。 

在 MATLAB 中 创建 BP 网 络 的 程序 代码 如 下 : 


function f = bpfun() 

币 Neural Network 

% build train and simulate 

% bpfun.m 

各 输入 矩阵 的 范围 (数据 源 ) 

P= [20 3000;1400 3500;500 3500;]; 

和 创建 网 络 

net = newff(P, [12 4 1],{'tansig' 'tansig' 'purelin', 'traincgb'}); 
和 初始 化 神经 网 络 

net = init(net); 

# 设 置 训练 的 参数 

停止 方式 按键 

% pause; 

# 两 次 显示 之 间 的 训练 步 数 默 认为 25 

net. trainParam. show = 50; 

s%1r 不 能 选择 太 大 , 太 大 了 会 造成 算法 不 收敛 , 太 小 了 会 使 训练 时 间 太 长 
外 一 般 选 择 0.01 一 0.1 

多 训练 速度 

net. trainParam. lr = 0.05; 

多 训练 次 数 ,默认 为 100 

net. trainParam. epochs = 3000; 

训练 时 间 , 默认 为 inf, 表示 训练 时 间 不 限 
net.trainParam.time = 6000; 

训练 的 目标 , 默认 为 0 

net. trainParam. goal = 0. 001; 

当 建 立 源 数据 的 矩阵 

SourceDataConvert = importdata('bp train sample data. dat'); 
SourceData = SourceDataConvert' 

TargetConvert = importdata( 'bp_ train target data. dat'); 
Target = TargetConvert' 

神经 网 络 训练 

net = train(net, SourceData, Target) 

显示 训练 后 的 各 层 权重 

matl = cell2mat (net. IW(1,1)) 

mat2 = cell2mat (net. LW(2,1)) 

mat3 = cell2mat (net. LW(3,2)) 

名 读 取 仿真 文件 数据 

simulate data convert = importdata( 'bp simulate data. dat'); 
simulate data= simulate data convert'; 

result = sim(net, simulate data) 


多 次 运行 上 述 程序 ,可 以 得 到 满足 误差 要 求 的 网 络 训练 结果 : 
TRAINIM ~ calcjx, Epoch 0/3000, Time 0.0% ,MSE 14. 0262/0. 001, Gradient 7315.37/le- 010 


TRAINLM - calcjx, Epoch 7/3000, Time 0.0% ,MSE 6.11e— 0.5/0.001,Gradient 0.185/1e— 07 
TRAINIM, Performance goal met 


图 6-27 展示 了 神经 网 络 训 练 模块 ,在 这 里 可 以 查看 训练 结果 、 训 练 状态 等 。 训 练 后 即 
可 达到 误差 要 求 ,结果 如 图 6-28 所 示 。 


Training: Levenberg-Marquardt (trainim) 
Performance: Mean Squared Error (mse) 
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图 6-27 神经 网 络 训练 模块 
对 预测 样本 值 的 仿真 输出 结果 如 下 : 


result = 

1 一 9 列 

2.9953 2.9953 1.0002 2.9962 3.9875 2.6118 2.6118 2.9953 4.0590 
10 一 18 列 

3.2461 2.9953 3.4248 1.0096 1.9975 3.9875 2.0003 3.9875 2.9953 
19 ~ 27 列 

3.9875 2.6118 1.9975 3.0221 2.9953 1.0011 1.0137 3.9888 1.0001 
28 一 31 列 

2.9953 2.9953 2.9953 1.9339 


综 上 所 述 ,在 计算 过 程 的 第 一 阶段 ,最速 下 降 法 是 比较 理想 的 寻 优 方法 ;而 在 最 优点 附 
近 ,由 于 接近 于 二 次 型 函数 , 宜 采 用 共 斩 梯 度 法 。 
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图 6-28 训练 曲线 图 


反馈 神经 网 络 


由 于 反馈 网 络 的 输出 端 有 反馈 到 其 输入 端 , 即 该 网 络 在 输入 的 激励 下 ,会 产生 不 断 的 状 
态 变化 ,因此 反馈 神经 网 络 需要 工作 一 段 时 间 才 能 达到 稳定 状态 。 需 要 指出 的 是 ,反馈 网 络 
有 稳定 的 ,也 有 不 稳定 的 。 

反馈 神经 网 络 首先 由 Hopfield 提出 ,因此 通常 称 反馈 网 络 为 Hopfield 网 络 。 在 这 种 网 
络 模型 的 研究 中 ,首次 引入 了 网 络 能 量 函 数 的 概念 ,并 给 出 了 网 络 稳定 性 的 判 据 。1984 年 ， 
Hopfield 提出 了 网 络 模型 实现 的 电子 电路 ,为 神经 网 络 的 工程 实现 指明 了 方向 。 这 种 网 络 
是 反馈 网 络 的 一 种 ,所 有 神经 单元 之 间 相互 连接 ,具有 丰富 的 动力 学 特性 。 现 在 , Hopfield 
网 络 已 经 广泛 应 用 于 联想 记忆 和 优化 计算 中 ,取得 了 很 好 的 效果 。 根 据 网 络 的 输入 是 连续 
量 还 是 离散 量 , Hopfield 网 络 也 分 为 连续 Hopfield 网 络 和 离散 Hopfield 网 络 。 这 里 以 离散 
Hopfield 网 络 为 例 进行 讲解 。 


6.4.1 离散 Hopfield 网 络 的 结构 


Hopfield 最 早 提出 的 网 络 是 二 值 神经 网 络 ,神经 元 的 输出 只 取 0 和 1( 或 一 1 和 1) 两 个 
值 ,也 称 为 离散 Hopfield 网 络 。 离 散 Hopfield 网 络 是 一 种 单 层 的 输入 输出 为 二 值 的 反馈 网 
络 ,主要 用 于 联想 记忆 。 网 络 的 能 量 函 数 存在 着 一 个 或 多 个 极 小 点 ,或 者 称 为 平衡 点 。 当 网 
络 的 初始 状态 确定 后 ,网 络 状态 按 其 工作 规则 向 能 量 递减 的 方向 变化 ,最 后 接近 或 达到 平衡 


点 。 这 种 平衡 点 又 称 为 吸引 子 。 如 果 设 法 把 网 络 所 需 记 忆 的 模式 设计 成 某 个 确定 网 络 状态 
的 一 个 平衡 点 , 则 当 网 络 从 与 记忆 模式 较 接近 的 某 个 初始 状态 出 发 后 , 按 Hopfield 运行 规 
则 进行 状态 更 新 ,最 后 网 络 状态 稳定 在 能 量 函 数 的 极 小 点 , 即 记忆 模式 所 对 应 的 状态 。 这 样 
就 完成 了 由 部 分 信息 或 失真 的 信息 到 全 部 或 完整 信息 的 联想 记忆 过 程 。 

离散 Hopfield 网 络 的 结构 如 图 6-29 所 示 。 


图 6-29 离散 Hopfield 网 络 的 结构 图 


离散 Hopfield 网 络 是 一 个 单 层 网 络 ,共有 n 个 神经 元 节点 ,每 个 节点 输出 均 连 接 到 其 
他 神经 元 的 输入 ,同时 所 有 其 他 神经 元 的 输出 均 连 到 该 神经 元 的 输入 。 对 于 每 一 个 神经 元 
节点 ,其 工作 方式 仍 同 以 前 一 样 , 即 


$= >) opzi 一 0 (6-29) 
j=1jzi 
zi = f(si) (6-30) 
1，xs>0 jf 0 
其 中 ,A(，) 到 阶 路 函数 ro=| :或 者 取 符 号 函数 f (5) 二 
0， s<=0 【一 和 s=0 


对 于 包含 nn 个 神经 元 节点 的 Hopfield 网 络 , 其 网 络 状态 是 输出 神经 元 信息 的 集合 ,由 
于 每 个 输出 端 有 两 种 状态 ,因此 网 络 共 有 2" 个 状态 。 

如 果 Hopfield 网 络 是 稳定 的 ,在 网 络 的 输入 端 加 入 一 个 输入 向 量 , 则 网 络 的 状态 就 会 
发 生变 化 ,直至 网 络 稳定 在 某 一 特定 的 状态 。 


6.4.2 离散 Hopfield 网 络 的 工作 方式 


离散 Hopfield 网 络 的 工作 方式 分 为 同步 方式 和 异步 方式 两 种 。 
(1) 异步 ( 串 行 ) 方 式 。 每 次 只 有 一 个 神经 元 节点 进行 状态 的 调整 计算 ,其 他 节点 的 状 
态 均 保持 不 变 , 即 


Zi(k 十 1) 一 A Bp wari(k) —0:) (6-31) 
j=1,j#i 
Zi(k+1) = zj(k) (6-32) 


nn 个 节点 的 调整 次 序 可 以 随机 选 定 ,也 可 按 规定 的 次 序 进行 。 
(2) 同步 (并 行 ) 方 式 。 所 有 的 神经 元 节点 同时 调整 状态 , 即 


而 眩 种 商 | wari(k) —0) (6-33) 
A 


其 中 Vi。 

该 网 络 是 动态 的 反馈 网 络 , 其 输入 是 网 络 的 状态 初 值 : X(0) 二 [zi(0),zz(0),… ,za(0)] , 输 
出 是 网 络 的 稳定 状态 limX(A)。 网 络 在 异步 方式 下 的 稳定 性 称 为 异步 稳定 性 。 同 理 ,在 同 
步 方 式 下 的 稳定 性 称 为 同步 稳定 性 。 神 经 网 络 稳定 时 的 状态 称 为 稳定 状态 。 


6.4.3 离散 Hopfield 网 络 的 稳定 性 和 吸引 子 


离散 Hopfield 网 络 实质 上 是 一 个 离散 的 非 线性 动力 系统 。 因 此 ,如 果 系统 是 稳定 的 ， 
则 它 可 以 从 任 一 初 态 收敛 到 一 个 稳定 状态 ; 若 系统 是 不 稳定 的 ,由 于 网 络 节点 输出 点 只 有 1 
和 一 1( 或 1 和 0) 两 种 状态 ,因此 系统 不 可 能 无 限 发 散 , 只 可 能 出 现 限 幅 的 自持 振荡 或 极 
限 环 。 

如 果 将 稳 态 视 为 一 个 记忆 样本 ,那么 初 态 朝 稳 态 的 收敛 过 程 就 是 寻找 记忆 样本 的 过 程 。 
初 态 可 以 认为 是 给 定 样本 的 部 分 信息 ,网 络 改变 的 过 程 可 以 认为 是 部 分 信息 找到 全 部 信息 ， 
从 而 实现 了 联想 记忆 的 功能 。 

定义 1: 若 网 络 的 状态 x 满足 x 二 J/(Wx 一 @ ), 则 称 x 为 网 络 的 稳定 点 或 吸引 子 。 

定理 1: 对 于 离散 Hopfield 网 络 , 若 按 异 步 方 式 调整 状态 ,并 且 连 接 权 短 阵 厂 为 对 称 给 
阵 , 则 对 于 任意 初 态 ,网 络 都 最 终 收敛 到 一 个 吸引 子 。 

定理 2: 对 于 离散 Hopfield 网 络 , 若 按 同步 方式 调整 状态 ,并 且 连 接 权 短 阵 风 为 非 负 定 
对 称 和 矩阵 , 则 对 于 任意 初 态 ,网 络 都 最 终 收 化 到 一 个 吸引 子 。 

由 上 述 定理 可 知 ,对 于 同步 方式 , 它 对 连接 权 和 矩阵 W 的 要 求 不 仅 为 对 称 和 矩阵 ,同时 要 求 
非 负 定 。 若 连接 权 和 矩阵 W 不 满足 非 负 定 的 要 求 , 则 Hopfield 网 络 可 能 出 现 自持 振荡 ( 即 极 
限 环 )。 比 较 而 言 ,异步 方式 比 同步 方式 具有 更 好 的 稳定 性 。 但 异步 方式 失去 了 神经 网 络 并 
行 处 理 的 优点 。 

定义 2: 若 x' ”是 吸引 子 , 对 于 异步 方式 , 若 存 在 一 个 调整 次 序 可 以 从 x 演变 到 xX”, 则 称 
x 弱 吸 引 到 x'”; 若 对 于 任意 调整 次 序 都 可 以 从 x 演变 到 x 中 , 则 称 x 强 吸引 到 x 中 。 

定义 3: 对 于 所 有 xER(x 中 ) 均 有 xx 弱 ( 强 ) 吸 引 到 x 中 , 则 称 R(x ) 为 x 中 的 弱 ( 强 ) 吸 
引 阅 。 

为 了 保证 Hopfield 网 络 在 异步 工作 时 能 稳定 收 伍 , 应 使 连接 权 和 矩阵 即 为 对 称 答 阵 , 同 
时 要 求 对 于 给 定 的 样本 必须 是 网 络 的 吸引 子 ,而 且 要 有 一 定 的 吸引 阅 , 这 样 才能 正确 实现 联 
想 记 忆 功 能 。 要 实现 上 述 功 能 ,通常 采用 Hebb 规则 来 设计 连接 权 。 

设 给 定 m 个 样本 中 (k 二 1,2,…,m) ,并 设 xE {一 1,1)", 则 按 Hebb 规则 设计 的 连接 权 
为 


大 大 - 
[Sz8zp, ij 
二 i 


ws | (6-34) 
i 一 项 


人 = wis(k—1) + zr, k=1,2,,m 


wi(0) = 0, w= 
写成 矩阵 的 形式 则 为 


DT 


DT 


(6-35) 


加 二 
(01) (2) mm) (KF) RT (CE RT 
W= [Ee so ym | —ml= Dx 大 —ml = D(x ED 
3 k=1 k=1 


x 


其 中 ,为 单位 矩阵 。 
当 网 络 节点 状态 为 1 或 0 两 种 状态 , 即 xE {0,1) ,相应 的 连接 权 为 


[DD dy 
wi 一 44=1 


05 Vy 
或 
人 一 o(R 一 1) 十 (2z 多 一 1)(2z 久 一 1)， 民 一 1 2 
wi(0)=0, wi=0 
写成 矩阵 的 形式 , 则 


W= 2 (2xw 一 及 (2x® 一 六 7 一 7 
k=1 
其 中 ,b=[1,1,*…,1]"。 


6.4.4 离散 Hopfield 网 络 的 连接 权 设 计 


a 


(6-36) 


(6-37) 


(6-38) 


(6-39) 


Hopfield 网 络 的 一 个 功能 是 用 于 联想 记忆 , 即 联想 存储 器 。 用 于 联想 记忆 时 ,首先 通 
过 一 个 学 习 训练 过 程 确 定 网 络 中 的 权 系 数 ,使 所 记忆 的 信息 在 网 络 的 n 维 超 立 方 体 的 某 个 


项 角 处 的 能 量 最 小 。 


离散 Hopfield 网 络 的 连接 权 是 设计 出 来 的 ,设计 方法 的 主要 思路 是 使 被 记忆 的 模式 样 


本 对 应 于 网 络 能 量 函 数 的 极 小 值 。 


设 有 mw 个 n 维 记 忆 模 式 , 要 设计 网 络 连接 权 wz 和 阔 值 9, 使 这 m 个 模式 正好 是 网 络 能 


量 函 数 的 m 个 极 小 值 。 比 较 常 用 的 设计 方法 是 “外 积 法 ”。 设 
U: = [Ut 0 ,Us] 


(6-40) 


其 中 ,k==1,2,…,m; UE {0,1} ,i 二 1,2,…,n。m 表示 模式 类 别 数 ; n 为 每 一 类 模式 的 维 


数 ; Ui 为 模式 & 的 向 量 表达 。 
要 求 网 络 记 忆 的 mlm 三 nn) 个 记忆 模式 向 量 两 两 正 交 , 即 满足 下 式 
ds 
(UD;) -| 
n, J 一 1 


各 神经 元 的 阔 值 4 一 0, 网 络 的 连接 权 和 矩阵 按 下 式 计 算 


(6-41) 


模式 识别 与 人 工 智能 (基于 MATLAB) 


W= PUU)’ (6-42) 
=1 


则 所 有 向 量 Us 在 1k<m 内 都 是 稳定 点 。 

在 网 络 结构 参数 一 定 的 条 件 下 ,要 保证 联想 功能 的 正确 实现 ,网 络 所 能 存储 的 最 大 的 样 
本 数 与 网 络 的 节点 数 n 有 关 。 当 网 络 结构 确定 时 , 即 节点 数 为 定 值 时 ,适当 地 调整 设计 连 
接 权 可 以 调 高 网 络 存储 的 样本 数 。 同 时 ,对 于 用 Hebb 规则 设计 连接 权 的 网 络 , 如 果 输 入 样 
本 是 正 交 的 , 则 可 以 获得 最 大 的 样本 记忆 数 。 此 外 ,最 大 的 样本 记忆 数 还 与 吸引 冰 有 关 , 疏 
引 阅 越 大 , 则 最 大 的 样本 记忆 数 越 小 。 

对 于 网 络 结构 参数 一 定 的 一 般 记 忆 样 本 而 言 ,可 以 通过 下 述 方法 提高 最 大 的 样本 记 
忆 数 。 

设 给 定 m 个 样本 向 量 x 咏 (k= 二 1,2,…,m), 先 组 成 如 下 的 nX(m 一 1) 阶 矩阵 : 


A= [x —x ,RW D 一 XO] (6-43) 
对 A 进行 奇异 值 分 解 : 
成 二 VW (6-44) 
其 中 ， 
到 二 | 上 | S= diag(oloz,…or) (6-45) 
0 0 
UDU 为 nXn 正 交 算 阵 ,V 为 (mm 一 1)X (m 一 1) 正 交 和 矩阵 ,U 可 表示 成 
U = [usr dr dr dn | (6-46) 


则 ww ,xs ,zx 是 对 应 于 非 零 奇 异 值 cl ,os，,…,o, 的 左 奇异 向 量 , 并 且 组 成 了 4 的 值 阅 空 间 
的 正 交 基 ; wun，… ,us 是 A 的 值 六 的 正 交 补 空间 的 正 交 基 。 
按 如 下 方法 组 成 连接 权 和 矩阵 W 和 浆 值 向 量 b 。 


W= Saad (6-47) 
@= Wr"™—x™ (6-48) 
经 证 明 ,按照 上 述 方法 设计 的 连接 权 和 矩阵 可 以 使 得 所 有 的 样本 x” 均 为 网 络 的 吸引 子 。 


6.4.5 离散 Hopfield 网 络 分 类 器 的 MATLAB 实现 


有 一 组 三 元 色 数 据 , 希 望 将 数据 按照 颜色 数据 所 表征 的 特点 ,将 数据 按 各 自 所 属 的 类 别 
归 类 。 三 元 色 数据 如 表 1-2 所 示 。 其 中 ,前 29 组 数据 已 确定 类 别 , 后 30 组 数据 待 确定 
类 别 。 


1. 运用 Hopfield 网 络 的 步骤 

将 具体 数据 的 分 类 标准 作为 网 络 的 标准 模式 使 网 络 记忆 人 它们 的 特征 ,得 到 权 值 , 也 就 是 
得 到 一 个 Hopfield 网 络 的 结构 ; 输入 采样 点 的 实测 值 , 利 用 得 到 的 网 络 进行 联想 ,最 后 确定 
采样 点 属于 哪 种 标准 模式 ,就 可 以 得 到 分 类 结果 。 运 用 Hopfield 网 络 进行 分 类 的 步骤 如 下 : 

(1) 设 定 网 络 的 记忆 模式 ,即将 预存 储 的 模式 或 类 别 进行 编码 ,得 到 取 值 为 1 和 一 1 的 
记忆 模式 。 由 于 原始 给 定数 据 分 为 4 类 ,采用 了 3 项 特征 来 进行 判别 ,因此 记忆 模式 为 


第 6 章 神经 网 络 聚 类 设计 


U: = [ut ,us ,ut] (6-49) 
其 中 ,k= 二 1,2,…,n; 7 一 40。 用 1 来 表示 达到 某 一 分 级 标准 ,用 一 1 表示 未 达到 某 一 分 级 标 
准 , 表 6-2 所 列 为 将 数据 标准 化 且 压 缩 在 { 一 1,.1} 后 进行 的 数据 离散 化 和 类 别 编码 。 
表 6-2 数据 离散 化 和 类 别 编码 


分 类 特征 1 特征 2 特征 3 

1 类 1 ce 二 医用 医 = sh | -= | 1 
2 类 一 1 1 1 -1| -1| -| 一 ! L 1 一 1 一 1 一 1 
3 类 1 1 下 遇 1 一 一 1 
4 类 1 ed | 对 ed ed ee | L = | 1 
特征 类 | 一 1 | 一 0.5| 0.5 | 1 一 1 | 一 0.5| 0.5 一 ] -C5 | 起 5 1 


表 6-2 中 的 一 0.5 和 0.5 是 指 在 一 1 一 一 0.5 和 0.5 一 1 的 特征 指标 。 

(2) 建立 网 络 , 即 运用 MATLAB 工具 箱 提供 的 newhop 函数 建立 Hopfield 网 络 ,参数 
为 Ui ,并 且 可 得 到 设计 权 值 矩阵 W 及 阔 值 向 量 b 。 

(3) 将 待 分 类 的 数据 转化 为 网 络 的 欲 识别 模式 , 即 转化 为 二 值 型 的 模式 。 

(4) 将 其 设 为 网 络 的 初始 状态 ,运用 MATLAB 提供 的 sim 函数 进行 多 次 迭代 使 其 收 
伍 。 最 终 得 出 所 属 类 别 。 

综 上 所 述 ,Hopfield 网 络 的 分 类 器 设计 过 程 如 图 6-30 所 示 。 


数据 集 离散 模式 编码 训练 模型 迭代 分 类 


图 6-30 Hopfield 网 络 的 分 类 器 设计 过 程 


其 中 的 关键 步骤 是 数据 集 离散 化 和 模式 编码 ,分 类 器 的 性 能 好 坏 基 本 由 这 几 步 决定 。 
尤其 是 分 辩 率 的 高 低 , 很 大 程度 上 依赖 离散 化 和 模式 编码 的 好 坏 。 


2. 数据 集 离散 化 


数据 离散 化 的 目的 是 定义 一 组 映射 ,允许 在 各 种 抽象 级 别 上 处 理 数据 ,在 多 个 层面 上 发 
现 知识 。 常 用 的 数据 集 离散 化 方法 有 分 箱 、 直 方 图 分 析 、 聚 类 分 析 和 基于 信 的 数据 离散 化 。 

为 了 将 取 值 控制 在 一 个 合理 的 范围 内 ,将 监测 特征 参量 的 值 域 变化 范围 划分 间隔 , 称 为 
箱 。 通 过 将 数据 分 布 到 不 同 的 箱 中 ,并 利用 箱 中 数据 的 均值 或 中 位 数 替 换 箱 中 的 每 个 值 , 实 
现 数据 离散 化 。 常 用 的 分 箱 策 略 有 : 等 宽 分 箱 , 这 种 方法 中 每 个 分 箱 的 间隔 相同 ; 等 高 分 
箱 , 每 个 分 箱 所 包含 的 元 组 相同 ; 基于 同 质 分 箱 , 这 种 方法 中 每 个 分 箱 的 大 小 是 基于 相应 方 
向 中 的 元 组 分 布 相似 进行 划分 的 。 

直方 图 离散 化 是 指 属 性 A 的 直方 图 将 A 的 数据 取 值 分 布 划分 为 不 相交 的 子 集 或 桶 ,这 
些 子 集 或 桶 沿 水 平 轴 显 示 ,其 高 度 或 面积 与 该 桶 所 代表 的 平均 出 现 频率 成 正比 。 通 常 每 个 
桶 代表 某 个 属性 的 一 段 连续 值 。 

聚 类 技术 将 数据 视 为 对 象 , 通 过 聚 类 分 析 所 获得 的 组 或 类 有 如 下 性 质 : 同一 组 或 类 中 
的 对 象 彼此 相似 ,而 不 同 组 或 类 中 的 对 象 彼此 不 相似 。 

基于 入 的 数据 离散 化 是 通过 递归 地 划分 数值 属性 ,使 之 分 层 离散 化 。 

Hopfield 网 络 的 数据 离散 化 采用 分 箱 与 直方 图 结合 的 方法 ,如 图 6-31 所 示 。 选 出 数据 


(254)、 模式 识别 与 人 工 智能 (基于 MATLAB) 


集 相同 属性 的 最 大 值 与 最 小 值 , 差 值 通过 直方 图 和 等 宽 分 箱 的 方法 得 到 。Hopfield 神经 网 


络 中 每 个 节点 
于 网 络 中 。 其 


的 输出 只 有 两 种 状态 {一 1 或 十 1) ,因此 ,要 将 特征 量 转化 成 为 数据 矩阵 ,存储 
中 ,白色 区 域 表 示 十 1, 黑 色 区 域 表 示 一 1。 


| | o | | | 
os | | %| | | 
ble | o | El 
| | “| | | | | 
o | 量 | 03| | | 
ol | | 02 | | 

1 ol | | 


图 6-31 利用 等 宽 分 箱 和 直方 图 的 特征 离散 表示 


在 本 例 中 ,利用 分 箱 与 直方 图 结合 的 方法 将 数据 离散 化 。 首 先 将 数据 存放 到 数据 文件 
data_sample. dat 中 ,数据 内 容 及 格式 如 图 6-32 所 示 。 


1868-45 1782-88 1875-13| 


图 6-32 data_sample. dat 数据 内 容 及 格式 


MATLAB 程序 代码 如 下 : 


clear; 
clic 


p= importdatal( 'data_sample. dat'); 
数据 标准 化 同时 压缩 在 { 一 1,1} 
[pn, minp, maxp] = premnmx(p); 

P= zeros(59,4); 
for i=1:59 


if pn(i,1)== -1 


end 


end 


P(i,1)=1;P(i,2)= -1;P(i,3)= -1;P(i,4)= -1; 
else if (1—pn(i,1))>1 
P(i,1)= -1;P(i2)=1; P(i,3)= -1;P(i,4)= -1; 
else if pn(i,1) ==1 
P(i,1)= -1;P(i2)= -1; P(i,3)= -1;P(i,4)=1; 
else P(i,1)= -1;P(i,2)= -1; P(i,3)=1;P(i,4)= -1; 


end 


end 


运行 上 述 程序 后 , 即 可 得 到 数据 离散 化 结果 : 


到 56)、 模式 识别 与 人 工 智能 (基于 MATLAB 


经 网 络 
汪 6 可 ， 光 全 则 格 二 才 攻 计 Ke 


3. 模式 编码 
按照 表 6-2 进行 模式 编码 ,MATLAB 程序 代码 如 下 : 


4. 网 络 学 习 
Hopfield 网 络 学 习 的 MATLAB 程序 代码 如 下 : 


5. 输出 网 络 分 类 结果 
输出 网 络 分 类 结果 的 MATLAB 程序 代码 如 下 : 


6。 以 图 形 方式 输出 分 类 结果 
以 图 形 方式 输出 分 类 结果 的 MATLAB 程序 代码 如 下 : 


hold off 

f=L'; 

indexl = find(f == 1); 
index2 = find(f == 2); 


index3 = find(f == 3); 

index4 = find(f == 4); 

plot3(p(:,1),p(:,2),p(:,3), '0'); 

line(p(indexl1,1),p(index1,2), p( index1, 3), 'linestyle', 'none', 'marker', ' * ', 'color', 'g'); 
line(p(index2,1),p(index2,2), p( index2,3), 'linestyle', 'none', 'marker', ' * ', 'color', 'r'); 
line(p(index3,1),p(index3,2), p( index3,3), 'linestyle', 'none', 'marker', ' + ', 'color', 'b'); 
line(p(index4,1),p(index4,2), p( index4,3),'linestyle', 'none', 'marker',' + ', 'color', 'y'); 
box;grid on; hold on; 

xlabel( 'A'); 

ylabel( 'B'); 

zlabel( 'C'); 

title( 'Hopf ield Network State Space'); 


运行 程序 后 ,系统 分 类 结果 如 图 6-33 所 示 。 
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图 6-33 系统 分 类 结果 
将 Hopfield 网 络 的 分 类 结果 与 原始 数据 的 分 类 结果 进行 对 照 ,结果 如 表 6-3 所 示 。 


表 6-3 ”Hopfield 网 络 的 分 类 结果 与 原始 数据 的 分 类 结果 的 对 照 


序 号 A B C 原始 分 类 结果 Hopfield 网 络 分 类 结果 
. 1739. 94 1675. 15 2395. 96 3 3 
2 373. 3 3087.05 2429. 47 4 4 
3 1756.77 1652 1514. 98 3 3 
4 864. 45 1647. 31 2665.9 1 lL 
5 222. 85 3059. 54 2002. 33 1 4 
6 877. 88 2031. 66 3071. 18 1 1 
7 1803. 58 1583. 12 2163. 05 3 3 
8 2352. 12 2557. 04 1411. 53 2 2 
9 401. 3 3259. 94 2150. 98 了 4 
10 363. 34 3477. 95 2462. 86 4 1 
11 1571.17 1731.04 1735. 33 3 1 
12 104.8 3389. 83 2421. 83 1 4 
13 499. 85 3305.75 2196. 22 1 1 
14 2297. 28 3340. 14 535. 62 2 2 
15 2092. 62 3177. 21 584. 32 2 2 
16 1418. 79 1775. 89 2772.9 1 1 
17 1845. 59 1918. 81 2226. 49 3 1 
18 2205. 36 3243. 74 1202. 69 2 2 
19 2949. 16 3244. 44 662. 42 2 2 
20 1692. 62 1867.5 2108. 97 3 1 
21 1680. 67 1575.78 1725. 1 3 3 
22 2802. 88 3017. 11 1984. 98 2 2 
23 172.78 3084. 49 2328. 65 4 4 
24 2063. 54 3199. 76 1257. 21 2 2 
25 1449. 58 1641. 58 3405. 12 有 1 
26 1651. 52 1713. 28 1570. 38 3 2 
27 341. 59 3076. 62 2438. 63 4 4 
28 291.02 3095. 68 2088. 95 4 4 
29 237. 63 3077.78 2251. 96 4 4 

6.4.6 结论 


Hopfield 网 络 具 有 很 强 的 自 组 织 、 自 学 习 能 力 。 其 采用 模式 联想 的 方式 运作 ,网 络 回 
想 时 间 很 短 ,一 般 只 需 一 到 两 次 迭代 即 可 完成 , 且 既 适用 于 定量 指标 的 分 类 参数 也 适用 于 定 
性 指标 的 分 类 参数 ,参数 越 多 ,评价 结果 越 可 靠 ,运算 结果 直接 给 出 样本 应 属于 的 酒 瓶 类 别 。 
因此 ,有 其 独特 的 优越 性 。 但 由 于 网 络 结构 和 输入 方式 的 局 限 , 其 应 用 于 酒 瓶 颜色 分 类 结果 
的 精度 受到 一 定 的 影响 ,需要 具体 的 改进 才能 准确 分 类 ,还 有 待 于 进一步 发 展 完善 。 


模式 识别 与 人 工 智能 (基于 MATLAB) 


谷 引 | 径 向 基 函 数 


从 结构 上 分 类 ,神经 网 络 可 分 为 前 馈 神 经 网 络 和 反馈 神经 网 络 , 而 从 对 函数 的 允 近 功能 
上 分 类 ,神经 网 络 可 分 为 全 局 逼近 和 局 部 痪 近 。 如 果 网 络 的 一 个 或 多 个 连接 权 系数 或 自 适 
应 可 调 参 数 在 输入 空间 的 每 一 点 对 任何 一 个 输入 都 有 影响 , 则 称 该 网 络 为 全 局 逼近 网 络 ; 
若 对 输入 空间 的 某 个 局 部 区 域 ,只 有 少数 几 个 连接 权 影 响 网 络 的 输出 , 则 称 该 网 络 为 局 部 逼 
近 网 络 。 当 只 有 少量 的 连接 权 需 要 进行 调整 ,从 而 使 局 部 和 逼近 网 络 具 有 学 习 速 度 快 的 优点 。 
径 向 基 函 数 (radial basis function,RBF) 就 属于 局 部 禹 近 神经 网 络 。 


6.5.1 径 向 基 函 数 的 网 络 结构 及 工作 方式 


径 向 基 函 数 RBF 神经 网 络 (简称 径 向 基 网 络 ) 是 由 J. Moody 和 C.Darken 于 20 世纪 80 
年 代 末 提出 的 一 种 神经 网 络 结构 ,RBF 神经 网 络 是 一 种 性 能 良好 的 前 向 网 络 ,具有 最 佳 逼 
近 及 克服 局 部 极 小 值 问题 的 性 能 。RBF 神经 网 络 起 源 于 数值 分 析 中 的 多 变量 插值 的 径 向 
基 函 数 方法 , 径 向 基 函 数 的 网 络 结构 如 图 6-34 所 示 。 


图 6-34 径 向 基 郴 数 的 网 络 结构 


RBF 神经 网 络 的 拓扑 结构 是 一 种 三 层 前 向 网 络 : 输入 层 由 信号 源 节点 构成 , 仅 起 到 数 
据 信 息 的 传递 作用 ,对 输入 信息 不 进行 任何 变换 ; 第 二 层 为 隐 含 层 ,节点 数 视 需 要 而 定 , 隐 
含 层 神经 元 的 核 函数 (作用 函数 ) 为 高 斯 函数 ,对 输入 信息 进行 空间 映射 变换 ; 第 三 层 为 输 
出 层 , 它 对 输入 模式 做 出 响应 ,输出 层 神经 元 的 作用 函数 为 线性 函数 ,对 隐 含 层 神经 元 输出 
的 信息 进行 线性 加 权 后 输出 ,作为 整个 神经 网 络 的 输出 结果 。 

RBF 神经 网 络 只 有 一 个 隐 含 层 , 隐 含 层 单元 采用 径 向 基本 数 a;(x) 作 为 其 输出 特性 , 输 
入 层 到 隐 含 层 之 间 的 权 值 均 固定 为 1; 输出 节点 为 线性 求 和 单元 , 隐 含 层 到 输出 节点 之 间 的 
权 值 wij 可 调 , 因 此 输出 为 


法 二 (6-50) 
i=1 


径 向 基因 数 为 某 种 沿 径 向 对 称 的 标量 函数 。 隐 含 层 径 向 基 神 经 元 模型 结构 如 图 6-35 
所 示 。 由 图 6-35 可 见 , 径 向 基 网 络 传递 函数 是 以 输入 向 量 与 阔 值 向 量 之 间 的 距离 | X 一 C; | 


作为 自 变量 的 ,其 中 ‖X 一 Ci | 是 通过 输入 向 量 和 加 权 和 矩阵 C 的 行 向 量 的 乘积 得 到 的 。 径 
向 基 网 络 传 递 函数 可 以 取 多 种 形式 ,最 常用 的 有 下 面 三 种 : 
(1) Gaussian 函数 


将 


Bi(t) = ea (6-51) 
(2) Reflected sigmoidal 函数 
BD) = 一 上 (6-52) 
l+er 


(3) 道 Multiquadric 函数 


(6-53) 
图 6-35 径 向 基 神 经 元 模型 结构 
最 常用 的 RBF 基 函 数 是 高 斯 基 函 数 
1 一 "12 
a(z) = gz mal/o) = (6-54) 


其 中 ,cj 是 第 j 个 基 函 数 的 中 心 点 ,0; 是 一 个 可 以 自由 选择 的 参数 , 它 决 定 了 该 基 函 数 围绕 
中 心 点 的 宽度 ,控制 了 函数 的 作用 范围 。 基 于 高 斯 基 函 数 的 RBF 神经 网 络 的 拓扑 结构 如 
图 6-36 所 示 。 


图 6-36 ”基于 高 斯 基 函 数 的 RBF 神经 网 络 的 拓扑 结构 


其 连接 权 的 学 习 算 法 为 
willt+1) = ws(D) +BLy! Om— yi(DJa(r)/a (xr)a(z) (6=55) 


当 输 入 自 变 量 为 0 时 ,传递 函数 取得 最 大 值 为 1。 随 着 权 值 和 输入 向 量 的 距离 不 断 减 
小 ,网 络 输出 递增 ,也 就 是 说 , 径 向 基 函 数 对 输入 信号 在 局 部 产生 响应 。 函 数 的 输入 信号 x 
靠近 函数 的 中 央 范 围 时 , 隐 含 层 节点 将 产生 较 大 的 输出 。 

当 将 输入 向 量 添加 到 网 络 输入 端 时 , 径 向 基层 每 个 神经 元 都 会 输出 一 个 值 ,这 个 值 代表 
输入 向 量 与 神经 元 权 值 向 量 之 间 的 接近 程度 。 如 果 输 入 向 量 与 权 值 向 量 相差 很 多 , 则 径 向 
基层 输出 接近 0, 经 过 第 二 层 的 线性 神经 元 ,输出 也 接近 于 0; 如 果 输 入 向 量 与 权 值 向 量 很 
接近 , 则 径 向 基层 的 输出 接近 于 1, 经 过 第 二 层 的 线性 神经 元 输出 值 就 靠近 第 二 层 权 值 。 在 
这 个 过 程 中 ,如 果 只 有 一 个 径 向 基 神 经 元 的 输出 为 1 ,而 其 他 的 神经 元 输出 均 为 0 或 者 接近 
0, 那 么 线性 神经 元 的 输出 就 相当 于 输出 为 1 的 神经 元 相对 应 的 第 二 层 权 值 的 值 。 一 般 情况 
下 ,不 止 一 个 神经 元 的 输出 为 1, 所 以 输出 值 也 就 会 有 不 同 。 


6.5.2 径 向 基 沪 数 网 络 的 特点 及 作用 


径 向 基 函 数 由 于 采用 了 高 斯 基 函 数 , 具 有 如 下 优点 : 

(1) 表示 形式 简单 ,即使 是 多 变量 输入 也 不 增加 太 多 的 复杂 性 。 

(2) 径 向 对 称 。 

(3) 光滑 性 好 。 

径 向 基 函 数 网 络 具有 如 下 作用 : 

(1) 一 般 任何 函数 都 可 以 表示 成 一 组 基 函 数 的 加 权 和 ,因此 径 向 基 函 数 网 络 可 以 允 近 
任意 未 知 函 数 。 

(2) 在 径 向 基 网 络 中 ,从 输入 层 到 隐 含 层 的 基 函 数 是 一 种 非 线性 映射 ,而 输出 则 是 线性 
映射 。 因 此 , 径 向 基 函 数 可 以 看 成 是 将 原始 的 非 线性 可 分 的 特征 空间 变换 到 另 一 个 高 维 空 
间 。 通 过 合理 选择 这 一 变换 ,使 在 新 的 空间 中 原 问 题 线性 可 分 。 


6.5.3 径 向 基 函 数 网 络 参 数 选 择 


径 向 基 函 数 网 络 中 ,可 调整 第 j 个 基 函 数 的 中 心 点 cj 及 其 方差 ci 。 常 采用 如 下 方法 进 
行 调整 。 

(1) 根据 经 验 选 择 函数 中 心 点 5。 如 果 只 训练 样本 的 分 布 能 代表 所 给 问题 , 则 可 根据 
经 验 选 定 均匀 的 m 各 个 中 心 点 ,其 间距 为 d, 则 基 函 数 方差 oj 一 d/ V2m。 

(2) 用 聚 类 方法 选择 基 函 数 。 可 以 以 各 类 聚 类 中 心 作为 基 范 数 的 中 心 点 ,而 以 各 类 样 
本 的 方差 的 某 一 函数 作为 各 个 基 函 数 的 宽度 参数 。 


6.5.4 RBF 网 络 分 类 器 的 MATLAB 实现 


以 表 1-2 所 示 的 三 元 色 数 据 为 例 ,希望 将 数据 按照 颜色 数据 所 表征 的 特点 ,将 数据 按 各 
自 所 属 的 类 别 归 类 。 其 中 ,前 29 组 数据 已 确定 类 别 , 后 30 组 数据 待 确定 类 别 。 


1. 从 样本 数据 库 中 获取 训练 数据 


取 前 29 组 数据 作为 训练 样本 。 为 了 编程 方便 , 先 对 这 29 组 数据 按 类 别 进行 升序 排序 。 
重新 排序 后 的 数据 如 表 6-4 所 示 。 


表 6-4 重新 排序 后 的 数据 表 


序 号 A B C 分 类 结果 

864. 45 1647. 31 2665. 9 1 
6 877. 88 2031. 66 3071. 18 1 
16 1418.79 1775. 89 2772.9 1 
25 1449. 58 1641.58 3405. 12 L 
8 2352.12 2557. 04 1411.53 2 
14 2297.28 3340. 14 535. 62 2 
15 2092. 62 3177. 21 584. 32 2 
18 2205. 36 3243. 74 1202. 69 2 
19 2949. 16 3244. 44 662. 42 2 
22 2802. 88 3017. 11 1984. 98 2 
24 2063. 54 3199. 76 1257. 21 2 
1739. 94 1675. 15 2395. 96 3 
3 1756.77 1652 1514. 98 3 
7 1803. 58 1583. 12 2163. 05 3 
Mk 1571. 17 1731. 04 1735. 33 3 
17 1845. 59 1918. 81 2226. 49 3 
20 1692. 62 1867.5 2108. 97 3 
21 1680. 67 1575.78 1725. 1 3 
26 1651. 52 1713. 28 1570. 38 3 

373. 3 3087. 05 2429. 47 4 

222. 85 3059. 54 2002. 33 4 

401.3 3259. 94 2150. 98 4 
10 363. 34 3477. 95 2462. 86 4 
12 104.8 3389. 83 2421. 83 4 
13 499. 85 3305.75 2196. 22 4 
23 172.78 3084. 49 2328. 65 4 
27 341. 59 3076. 62 2438. 63 4 
28 291.02 3095. 68 2088. 95 4 
29 237.63 3077.78 2251. 96 4 


将 排序 后 的 数据 及 其 类 别 绘制 在 三 维 图 中 直观 地 表示 出 来 ,作为 RBF 网 络 训 练 时 应 达 
到 的 目标 。 排 序 后 的 数据 及 其 类 别 的 三 维 图 如 图 6-37 所 示 。 
将 样本 数据 及 分 类 结果 分 别 存放 到 .dat 文件 中 。 数 据 文件 内 容 及 格式 如 图 6-38 所 示 。 


2. 设置 径 向 基 函 数 的 分 布 密度 


Spread 为 径 向 基层 的 分 布 密度 ,又 称 散布 常数 ,默认 值 为 1。 散布 常数 是 RBF 网 络 设 
计 过 程 中 一 个 非常 重要 的 参数 。 一 般 情况 下 ,散布 常数 应 该 足够 大 ,使 得 神经 元 响应 区 域 覆 
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图 6-37 排序 后 的 数据 及 其 类 别 的 三 维 图 


rbf_train_sanaple_dat... [ | 加 | 医 


文件 下 蝙 独 了 ) 格式 人 0) 查看 名 帮助 0) 
864.45 1647.31 2665.9 四 
877.88 2831.66 3071.18 | 
1418.79 1775.89 2772.9 
1641.58 3405.12 
2557.04 1411.53 
3348.14 535.62 
3177.21 584.32 
3243.74 1282.69 
3244.44 662.42 
3017.11 1984.98 
3199.76 1257.21 
1675.15 2395.96 
ba 文件 中 闹 简 时 ) 格式 @) 查看 WD 帮助 们 
3271.72 2836.94 四 
3196.22 935.53 
3077.87 1298.87 
1752 .97 2463.04 
1594.97 1835.95 
目 rbf_train target_data - 记事 本 人 
~ .17 1594.39 2937.73 
文件 下) 篇 句 G) 相 式 @) 查看 帮助 只 2185 -61 
1111222222233333333 和 与 生 生生 与 年 与 与 生 .72 2701.97 
1966.35 
2328.79 
1875.13 


rbf_siaulate_data ---- 下 问 赂 


(b) rbf_train_target_data.dat 文 件 内 容 及 格式 (c) rbf_simulate_data.dat 文 件 内 容 及 格式 
图 6-38 数据 文件 内 容 及 格式 
盖 所 有 输入 区 间 。 


3. 调用 newrb 构建 并 训练 径 向 基 范 数 神经 网 络 


在 MATLAB 中 ,构建 径 向 基 函 数 网 络 的 函数 有 两 个 ,分 别 为 newrbe() 函 数 和 newrb0) 了 
数 。 应 用 newrbe() 函 数 可 以 快速 设计 一 个 径 向 基 函 数 网 络 , 并 且 使 得 设计 误差 为 0, 调 用 代 
码 如 下 : 


net = newrbe(p,t, spread); 


其 中 ,p 为 输入 向 量 ; t 为 期 望 输出 向 量 (目标 值 ),SPREAD 为 径 向 基层 的 散布 常数 ,默认 值 
为 1。 输出 为 一 个 径 向 基 网 络 , 其 权 值 和 阔 值 完全 满足 输入 和 期 望 值 关 系 要 求 。 

由 newrbe() 函数 构建 的 径 向 基 函 数 网 络 , 其 径 向 基层 (第 一 层 ) 神 经 元 数目 等 于 输入 向 
量 的 个 数 ,那么 在 输入 向 量 较 多 的 情况 下 , 则 需要 很 多 的 神经 元 ,这 就 给 网 络 设计 带 来 一 定 
的 难度 。 函 数 newrb() 则 可 自动 增加 网 络 的 隐 含 层 神经 元 数目 ,直到 均 方差 满足 精度 或 神 
经 元 数目 达到 最 大 为 止 。 

newrb 定义 为 net 二 newrb(p,t,GOAL,SPREAD,MN ,DF) ,各 个 参数 的 定义 如 下 。 

P: Q 个 输入 向 量 的 RXQ 维和 矩阵 。 这 里 Q 一 29,R 一 3。 

T: Q 个 目标 类 别 向 量 的 SXQ 维 矩 阵 。 这 里 S=1。 

GOAL: 期 望 的 均 方 误差 值 ,默认 为 0.0。 这 里 选择 默认 值 。 

SPREAD: 径 向 基 郴 数 的 散布 常数 ,默认 为 1.0。 

MN: 神经 元 的 最 大 数目 ,默认 等 于 Q。 这 里 设置 为 28。 

DF; 每 次 显示 时 增加 的 神经 元 数目 ,默认 为 25, 并 且 返 回 一 个 新 的 径 向 基 函 数 网 络 。 
这 里 设置 为 2。 


4. 调用 sim 及 识别 样本 


调用 sim ,测试 RBF 网 络 的 训练 效果 ; 再 次 调用 sim 识别 样本 所 属 类 别 。 基 于 
MATLAB 的 RBF 模式 分 类 程序 代码 如 下 : 


clear; 

Sle 

网络 训 练 目 标 

pConvert = importdatal( 'C:\Users\Administrator\Desktop\RBF\rbf train sample data. dat'); 
p= pConvert'; 

t= importdata( 'C:\Users\Administrator\Desktop\RBF\rbf train target data. dat'); 
plot3(p(1, :),p(2, :),p(3, :), '0'); 

grid; box; 

for i=1:29,text(p(1,i),p(2, i),p(3, i), sprintf(' %g',t(i))),end 

hold off 

f=t'; 

indexl = find(f == 1); 

index2 = find(f == 2); 

index3= find(f == 3); 

index4 = find(f == 4); 

line(p(1, index1),p(2, indexl),p(3, index1), 'linestyle', 'none', 'marker', ' * ', 'color', 'g'); 
line(p(1, index2),p(2, index2),p(3, index2), 'linestyle', 'none', 'marker', ' * ', 'color', 'r'); 
line(p(1, index3),p(2, index3),p(3, index3), 'linestyle', 'none', 'marker', ' + ', 'color', 'b'); 
line(p(1, index4),p(2, index4),p(3, index4), 'linestyle', 'none', 'marker', ' + ', 'color', 'y'); 
box; grid on;hold on; 

axis([0 3500 0 3500 0 3500]); 

title(' 训 练 用 样本 及 其 类 别 '); 

xlabel( 'A'); 

ylabel( 'B'); 

zlabel( 'C'); 


名 RBF 网 络 的 创建 和 训练 过 程 

net = newrb(p, t, 0,410,28,2); 

A= sim(net, p) 

plot3(p(1, :),p(2, :),p(3, :), 'r .'),grid;box; 

axis([0 3500 0 3500 0 3500]) 

for i=1:29, text(p(1, i), p(2, i), p(3, i), sprintf(' %g',A(i))),end 

hold off 

f=A'; 

indexl = find(f ==1); 

index2 = find(f == 2); 

index3 = find(f == 3); 

index4 = find(f == 4); 

line(p(1, index1), p(2, index1), p(3, index1), 'linestyle', 'none', 'marker',' * ', 'color', 'g'); 
line(p(1, index2),p(2, index2), p(3, index2), 'linestyle', 'none', 'marker', ' * ', 'color', 'r'); 
line(p(1, index3),p(2, index3), p(3, index3), 'linestyle', 'none', 'marker', ' + ', 'color', 'b'); 
line(p(1, index4), p(2, index4), p(3, index4), 'linestyle', 'none', 'marker',' + ', 'color', 'y'); 
box;grid on; hold on; 

title(' 网 络 训练 结果 '); 

xlabel( 'A'); 

ylabel( 'B'); 

zlabel( 'C'); 

对 测试 样本 进行 分 类 

pConvert = importdata( 'C:\Users\Administrator\Desktop\RBF\rbf_simulate data. dat'); 

p= pConvert'; 

a= sim(net, p) 


运行 程序 后 ,系统 首先 输出 训练 样本 及 其 类 别 分 类 图 ,如 图 6-39 所 示 。 接 着 输出 RBF 
网 络 的 训练 结果 图 ,如 图 6-40 所 示 。 
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6-39 ”训练 用 样本 及 其 类 别 分 类 图 
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6-40 RBF 网 络 的 训练 结果 图 
训练 数据 进行 分 类 后 的 结果 与 目标 结果 对 比 ,如 表 6-5 所 示 。 


表 6-5 训练 后 的 RBF 网络 对 训练 数据 进行 分 类 后 的 结果 与 目标 结果 对 比 表 
大 于 A B & 目标 结果 | RBF 网 络 分 类 结果 

4 864. 45 1647. 31 2665.9 1 1 
6 877. 88 2031. 66 3071. 18 1 1 
16 1418. 79 1775. 89 2772,9 1 1 
25 1449, 58 1641.58 3405. 12 1 1 
8 2352. 12 1411. 53 2 2 
14 2297. 28 535. 62 2 2 
15 2092. 62 584, 32 2 2 
18 1202. 69 2 2 
19 662. 42 2 
2 1984. 98 2 2 
24 3199. 76 2 2 
, 1675. 15 3 3 
3 1652 3 3 
人 1583, 12 3 3 
机 1571. 17 1731.04 3 3 
17 1845. 59 1918. 81 3 3 
20 1692. 62 1867.5 3 EE 
21 1680. 67 1575.78 3 3 
26 1651. 52 1713. 28 1570. 38 3 3 
2 373.3 3087. 05 2429. 47 4 4 
5 222. 85 3059. 54 2002. 33 4 4 
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续 表 
序 号 A B C 目标 结果 | RBF 网 络 分 类 结果 
9 401.3 3259. 94 4 4 
10 363. 34 3477. 95 4 4 
加 104 3389. 83 4 4 
加 499. 85 3305.75 4 4 
23 ee 3084. 49 4 4 
27 341. 59 3076. 62 4 4 
28 291.02 3095. 68 4 4 
29 237. 63 3077.78 4 4 


训练 后 的 RBF 网 络 对 训练 数据 进行 分 类 后 的 结果 与 目标 结果 完全 吻合 ,可 见 RBF 网 
络 训练 效果 良好 。 以 下 为 神经 元 逐渐 增加 的 过 程 及 对 应 输出 的 均 方 误差 。 


NEWRB, neurons = 
NEWRB, neurons = 
NEWRB, neurons = 
NEWRB, neurons = 
NEWRB, neurons = 
NEWRB, neurons = 
NEWRB, neurons = 
NEWRB, neurons = 
NEWRB, neurons = 
NEWRB, neurons = 
NEWRB, neurons = 
NEWRB, neurons = 
NEWRB, neurons = 
NEWRB, neurons = 
NEWRB, neurons = 


0,MSE 
2,MSE 

4,MSE 

6,MSE 

8,MSE 

10, MSE 
12,MSE 
14,MSE 
16,MSE 
18,MSE 
20, MSE 
22, MSE 
24, MSE 
26, MSE 
28, MSE 


1.1082 
0.262521 
0.188316 
0.104082 
0.0794035 
.0524248 
.0377437 
.0302773 
.0209541 
.0124128 
.000818943 
.000771163 
.000131081 
.66274e— 07 
57298— 31 
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从 运行 过 程 可 以 看 出 , 随 着 神经 元 数目 的 逐渐 增加 , 均 方 误差 逐渐 减 小 。 当 神经 元 数目 
增加 到 28 时 ,误差 已 经 很 接近 0, 基本 可 以 达到 要 求 。 
继续 执行 程序 ,系统 将 给 出 训练 后 的 RBF 网 络 对 训练 样本 数据 的 识别 结果 图 ,如 图 6-41 


所 示 。 


继续 执行 程序 ,可 得 到 测试 样本 的 分 类 结果 : 


a= 


1 一 9 列 


1.0000 1.0000 1.0000 1.0000 2.0000 2.0000 2.0000 


10 一 18 列 


2.0000 2.0000 3.0000 3.0000 3.0000 3.0000 3.0000 


19 ~ 27 列 


3.0000 4.0000 4.0000 4.0000 4.0000 4.0000 4.0000 


28 一 36 列 


4.0000 4.0000 2.8969 3.2124 2.9232 4.0000 2.2147 


37 一 45 列 


4.0009 2.6013 3.1286 3.1476 1.3241 2.1283 4.0008 


46 一 48 列 


3.1801 3.9996 1.8306 


2.0000 


3.0000 


4.0000 


2.4485 


3.6605 


2.0000 


3.0000 


4.0000 


3.0550 


9999 
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网 络 训练 结果 


图 6-41 训练 后 的 RBF 网 络 对 训练 样本 数据 的 识别 结果 图 
a 为 测试 数据 的 分 类 结果 ,对 a 进行 近似 处 理 后 可 得 最 终 的 分 类 结果 : 


和 让 二 


1 一 9 列 

于 I n 1 2 2 2 
10 一 18 列 

之 2 3 3 3 3 3 3 3 
19 ~ 27 列 

3 4 4 4 4 4 4 4 4 
28 一 36 列 

4 4 3 3 4 2.4485 3 
37 一 45 列 

4 2.6013 3 3 了 加 4 3.6605 4 
46 一 48 列 

3 4 2 

6.5.5 结论 


由 酒 瓶 颜色 分 类 实例 可 以 发 现 ,在 未 对 数据 进行 近似 处 理 之 前 ,类 别 均 为 小 数 。 而 且 对 
于 某 些 数据 ,分 类 的 结果 介 于 两 类 之 间 ,无 法 人 为 决定 其 所 属 类 别 。 这 是 因为 ,其 一 ,虽然 目 
前 已 经 证 明 径 向 基 函 数 网 络 能 够 以 任意 精度 逼近 任意 连续 函数 ,但 对 于 本 例 的 离散 数据 , 理 
论 上 就 不 能 做 到 完全 逼近 ; 其 二 , 径 向 基 范 数 神经 网 络 的 输出 层 为 线性 层 , 神 经 元 层 的 输出 
乘 以 输出 层 权 值 之 后 直接 输出 结果 ,输出 层 不 会 计算 某 一 数据 属于 某 一 类 别 的 概率 。 由 径 


向 基 范 数 神经 元 与 竞争 神经 元 一 起 构成 的 男 一 种 神经 网 络 结构 一 一 概率 神经 网 络 (PNN) 
可 以 解决 这 个 问题 。 


由 广义 回归 神经 网 络 


广义 回归 神经 网 络 (generalized regression neural network,GRNN) 是 径 向 基 神 经 网 络 
的 一 种 。GRNN 具有 很 强 的 非 线性 映射 能 力 和 和 柔性 网 络 结构 以 及 高 度 的 容错 性 和 健壮 性 ， 
适用 于 解决 非 线性 问题 。GRNN 在 逼近 能 力 和 学 习 速 度 上 较 RBF 网 络 有 更 强 的 优势 ,网 
络 最 后 收敛 于 样本 量 积 聚 较 多 的 优化 回归 面 ,并 且 在 样本 数据 较 少时 ,预测 效果 也 较 好 。 此 
外 ,网 络 还 可 以 处 理 不 稳定 的 数据 。 因 此 ,GRNN 在 信号 分 析 、 结 构 分 析 、 教 育 产业 、 能 源 、 
食品 科学 ,控制 决策 系统 药物 设计 、 金 融 领 域 .生物 工程 等 各 个 领域 得 到 了 广泛 应 用 。 


6.6.1 GRNN 的 结构 


GRNN 在 结构 上 与 RBF 网 络 较为 相似 。 它 是 四 层 结构 ,如 图 6-42 所 示 ,分 别 为 输入 层 
(input layer) ,模式 层 (pattern layer)、 求 和 层 (summation layer) 和 输出 层 (output layer) 。 
对 应 网 络 输入 net 二 newgrnn(P,T,SPREAD), 其 输出 为 Y==sim(net,P)。 


输入 层 模式 层 求 和 层 ”输出 层 


图 6-42 广义 回归 神经 网 络 结构 图 


1. 输入 层 


输入 层 神经 元 的 数目 等 于 学 习 样 本 中 输入 向 量 的 维 数 ,各 神经 元 是 简单 的 分 布 单元 , 直 
接 将 输入 变量 传递 给 模式 层 。 


2. 模式 层 


模式 层 神经 元 数目 等 于 学 习 样 本 的 数目 n, 各 神经 元 对 应 不 同 的 样本 ,模式 层 神经 元 传 
递 函 数 为 
ex A FR 
神经 元 i 的 输出 为 输入 变量 与 其 对 应 的 样本 X 之 间 Euclid 距离 平方 的 指数 平方 Di 二 
(X 一 X;)"(X 一 X;) 的 指数 形式 。 式 中 ,X 为 网 络 输入 变量 ; X; 为 第 i 个 神经 元 对 应 的 学 
习 样 本 。 


-sh (6-56) 
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3. 求 和 层 


求 和 层 中 使 用 两 种 类 型 神经 元 进行 求 和 。 


一 类 计算 公式 为 iexp[ 一 位 一 革 全 一 半 ) | , 它 对 所 有 模式 层 神经 元 的 答 出 过 


行 算术 求 和 ,其 模式 层 与 各 神经 元 的 连接 权 值 为 1, 传递 函数 为 
Sb = DA (6-57) 


另 一 类 计算 公式 为 Yiexp[ 一 人 一 于 一 人 中]， 它 对 所 有 模式 的 神经 元 进行 


加 权 求 和 ,模式 层 中 第 i 个 神经 元 与 求 和 层 第 j 个 分 子 求 和 ,神经 元 之 间 的 连接 权 值 为 第 i 
个 输出 样本 Y; 中 的 第 j 个 元 素 , 传 递 函 数 为 


Ss = DP j= lk (6-58) 
=] 


4. 输出 层 
输出 层 中 的 神经 元 数目 等 于 学 习 样本 中 输出 向 量 的 维 数 &, 各 神经 元 将 求 和 层 的 输出 
相 除 ,神经 元 j 的 输出 对 应 估计 结果 了 (X) 的 第 j 个 元 素 , 即 


Sy 


二 沪 ，j 二 ase -并 
关 王 5” 1,2,.°,k (6-59) 


6.6.2 ”GRNN 的 理论 基础 


GRNN 的 理论 基础 是 非 线 性 回归 分 析 , 非 独立 变量 Y 相对 于 独立 变量 zx 的 回归 分 析 实 
际 上 是 计算 具有 最 大 概率 值 的 y。 设 随机 变量 x 和 随机 变量 y 的 联合 概率 密度 函数 为 
了 f(z,y) ,已 知 工 的 观测 值 为 X, 则 > 相对 于 X 的 回归 , 即 条 件 均值 为 
[wdy 
fx sydy 
Y 即 为 在 输入 为 X 的 条 件 下 ,Y 的 预测 输出 。 
应 用 Parzen 非 参数 估计 ,可 由 样本 数据 集 {zi, yw ) 人 1, 估算 密度 函数 (X ,y)。 


2 1 (和 一 Xi)T(X 一 Xi) (X—Y)? 
Ta n (2x) 6+! Dpl 26° je 26° ] 


Y= Ey/X) 


(6-60) 


(6-61) 
式 中 ,Xi,Y; 为 随机 变量 x 和 > 的 样本 观测 值 ; ”为 样本 容量 ; p 为 随机 变量 zx 的 维 数 ; 8 
为 高 斯 函数 的 宽度 系数 ,在 此 称 为 光滑 因子 。 
用 fCX,y) 代 替 f(X,y) 代 入 式 (6-60) ,并 交换 积分 与 加 和 的 顺序 


g > i 
本 Dexp ( = - 万 Jexp a dy 
Y(X)= 二 [ 有 ] 二 [ 2 ] (6-62) 


Bexol (X < X2 [ex p[ as 


26° 
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to 


由 于 | <er ds = 0， 对 两 个 积分 进行 计算 后 可 得 网 络 的 输出 闻 (X ) 为 


XR 
图 DYiexp = A 
Y(X)= 二 [ ] (6-63) 


Dol CX) KX] 

估计 值 了 (CX) 为 所 有 样本 观测 值 Y; 的 加 权 平均 ,每 个 观测 值 Y; 的 权重 因子 为 相应 的 样 
本 六 与 X 之 间 Euclid 距离 平方 的 指数 。 当 光滑 因子 6 非常 大 的 时 候 ,Y(X) 近 似 于 所 有 样 
本 因 变 量 的 均值 。 相 反 , 当 光滑 因子 3 趋 于 0 的 时 候 ,Y(X) 和 训练 样本 非常 接近 , 当 需 要 预 
测 的 点 被 包含 在 训练 样本 集中 时 ,公式 求 出 的 因 变量 的 预测 值 会 和 样本 中 对 应 的 因 变量 非 
常 接近 ,而 一 旦 碰 到 样本 中 未 能 包含 进去 的 点 ,有 可 能 预测 效果 会 非常 差 ,这 种 现象 说 明 网 
络 的 泛 化 能 力 差 。 当 6 取 值 适中 ,求解 预测 值 YCX) 时 ,所 有 训练 样本 的 因 变 量 都 被 考虑 了 
进去 ,与 预测 点 距离 近 的 样本 点 对 应 的 因 变 量 被 加 了 更 大 的 权 。 


6.6.3 ”GRNN 的 特点 及 作用 


相 比 BP 网 络 ,GRNN 具有 以 下 优点 : 

(1) GRNN 同样 能 够 以 任意 精度 逼近 任意 非 线性 连续 函数 , 且 预 测 效果 接近 甚至 优 于 
BP 网 络 。 

(2) GRNN 的 训练 非常 简单 。 当 训练 样本 通过 隐 含 层 的 同时 ,网 络 训练 随即 完成 。 它 
的 训练 过 程 不 需要 迭代 ,因此 较 BP 网 络 的 训练 过 程 快 得 多 ,更 适合 于 在 线 数据 的 实时 
处 理 。 

(3) GRNN 所 需 的 训练 样本 较 BP 网 络 少 得 多 。 要 取得 同样 的 效果 ,GRNN 所 需 样本 
是 BP 网 络 的 1%。 

(4) GRNN 的 结构 相对 简单 ,除了 输入 和 输出 层 外 ,一 般 只 有 两 个 隐 含 层 , 即 模式 层 和 
求 和 层 。 而 模式 中 隐 含 单元 的 个 数 ,与 训练 样本 的 个 数 是 相同 的 。 

(5) 由 于 网 络 结构 简单 ,因此 不 需要 对 网 络 的 隐 含 层 数 和 隐 含 单元 的 个 数 进行 估算 和 
猜测 。 由 于 它 是 从 径 向 基 函 数 引 申 而 来 ,因此 只 有 一 个 自由 参数 , 即 径 向 基 函 数 的 平滑 参 
数 。 而 它 的 优化 值 可 以 通过 交叉 验证 的 方法 非常 容易 得 到 。 


6.6.4 ”GRNN 分 类 器 的 MATLAB 实现 


将 表 1-2 所 示 数 据 按照 颜色 数据 所 表征 的 特点 , 按 各 自 所 属 类 别 归 类 。 其 中 ,前 29 组 
数据 已 确定 类 别 , 后 30 组 数据 待 确定 类 别 。 
1. 从 样本 数据 库 中 获取 训练 数据 


取 前 29 组 数据 作为 训练 样本 。 并 将 样本 数据 及 分 类 结果 分 别 存 放 到 “. dat" 文 件 中 。 
数据 文件 内 容 及 格式 如 图 6-43 所 示 。 
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(b) SelfOrganizationtarget.dat 文 件 内 容 及 格式 (c) SelfOrganizationSimulation.dat 文 件 内 容 及 格式 
6-43 数据 文件 内 容 及 格式 


2， 设置 径 向 基 函 数 的 分 布 密度 


Spread 为 径 向 基层 的 分 布 密度 ,又 称 散布 常数 ,默认 值 为 1。 散 布 常数 是 GRNN 网 络 
设计 过 程 中 一 个 非常 重要 的 参数 。 一 般 情况 下 ,散布 常数 应 该 足够 大 ,使 得 神经 元 响应 区 域 
能 够 覆盖 所 有 输入 区 间 。 

3. 调用 newgrnn 构建 并 训练 广义 神经 网 络 

在 MATLAB 中 ,应 用 newgrnn() 函 数 可 以 快速 设计 一 个 广义 神经 网 络 ,并 且 使 得 设计 
误差 为 0, 调用 代码 如 下 : 


net = newgrnn(p, t, spread); 


其 中 ,p 为 输入 向 量 ; t 为 期 望 输出 向 量 (目标 值 ),spread 为 广义 神经 网 络 的 散布 常数 ,默认 
值 为 1。 输 出 为 一 个 广义 神经 网 络 ,其 权 值 和 阔 值 完全 满足 输入 和 期 望 值 关 系 要 求 。 


4. 调用 sim 及 识别 样本 
调用 sim ,测试 GRNN 的 训练 效果 ; 再 次 调用 sim 识别 样本 所 属 类 别 。 基 于 MATLAB 
的 GRNN 模式 分 类 程序 代码 如 下 : 


clear; 
cles 


名 网 络 训练 样本 

pConvert = importdata( 'C:\Users\Administrator\Desktop\ ln\SelfOrganizationtrain. dat');; 
p= pConvert'; 

名 训练 样本 的 目标 矩阵 

t= importdata( 'C:\Users\Administrator\Desktop\1ln\SelfOrganizationtarget. dat'); 
plot3(p(1, :),p(2, :),p(3, :), 'o'); 

grid; box; 

for i=1:29,text(p(1, i), p(2, i), p(3, i), sprintf(' %g',t(i))),end 

hold off 

f=t; 

indexl = find(f == 1); 

index2 = find(f == 2); 

index3 = find(f EA 

index4 =find(f 4); 

line(p(1, index1),p(2, index1), p(3, index1), 'linestyle', 'none', 'marker', ' * ', 'color', 'g'); 
line(p(1, index2),p(2, index2), p(3, index2), 'linestyle', 'none', 'marker', ' * ', 'color', 'r'); 
line(p(1, index3),p(2, index3), p(3, index3), 'linestyle', 'none', 'marker', ' + ', 'color', 'b'); 
line(p(1, index4),p(2, index4), p(3, index4), 'linestyle', 'none', 'marker', ' + ', 'color', 'y'); 
box; grid on; hold on; 

axis([0 3500 0 3500 0 3500]); 

title(' 训 练 用 样本 及 其 类 别 '); 

xlabel( 'A'); 

ylabel( 'B'); 

zlabel( 'C'); 

ee 

t= ind2vec(t); 

spread = 30; 

和 GRNN 网 络 的 创建 和 训练 过 程 

net = newgrnn(p, t, spread); 

A= sim(net, p); 

Ac = vec2ind(A) 

plot3(p(1, :),p(2, :),p(3, :), '. '), grid;box; 

axis([0 3500 0 3500 0 3500]) 

for i=1:29, text(p(1, i), p(2, i), p(3, i), sprintf(' %g',Ac(i))), end 

以 图 形 方式 输出 训练 结果 

hold off 
f=Ac'; 

indexl = find(f 
index2 = find(f 
index3 = find(f == 3); 

index4 = find(f == 4); 

line(p(1, index1),p(2, index1), p(3, index1), 'linestyle', 'none', 'marker', ' * ', 'color', 'g'); 
line(p(1, index2),p(2, index2), p(3, index2), 'linestyle', 'none', 'marker', ' * ', 'color', 'r'); 
line(p(1, index3),p(2, index3), p(3, index3), 'linestyle', 'none', 'marker', ' + ', 'color', 'b'); 
line(p(1, index4),p(2, index4), p(3, index4), 'linestyle', 'none', 'marker', ' + ', 'color', 'y'); 
box;grid on;hold on; 

title(' 网 络 训练 结果 '); 

xlabel( 'A'); 

ylabel( 'B'); 

zlabel( 'C'); 
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名 对 待 分 类 样本 进行 分 类 
pConvert = importdatal( 'C:\Users\Administrator\Desktop\1ln\SelfOrganizationSimulation. dat'); 
p= pConvert'; 
a= sim(net, p); 
ac= vec2ind(a) 


运行 程序 后 ,系统 首先 输出 训练 用 样本 及 其 类 别 分 类 图 ,如 图 6-44 所 示 。 接 着 输出 
GRNN 的 训练 结果 图 ,如 图 6-45 所 示 。 
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81 
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图 6-45 训练 结果 类 别 分 类 图 


王 6N 棋 式 识 虽 与 人 工 知 能 (基于 MATLAB) 


训练 后 的 GRNN 对 训练 数据 进行 分 类 后 的 结果 与 目标 结果 对 比如 表 6-6 所 示 。 
表 6-6 训练 后 的 GRNN 对 训练 数据 进行 分 类 后 的 结果 与 目标 结果 对 比 
序 号 A B GRNN 网 络 分 类 结果 

4 4 1 

6 1 1 

16 1 1 

25 1 

8 2 

14 2 

15 2092. 62 2 

18 2205. 36 2 2 

19 2949. 16 2 

22 02. 88 2 

24 2 

重 3 3 

3 3 3 

7 3 3 

11 3 3 

17 3 3 

20 3 3 

21 3 3 

26 3 3 

2 4 4 

5 4 4 

9 4 4 
4 4 
4 4 
4 4 
4 4 

27 3076. 62 4 4 

28 3095. 4 4 

29 3077. 4 站 

训练 后 的 GRNN 对 训练 数据 进行 分 类 后 的 结果 与 目标 结果 完全 吻合 ,可 见 GRNN 训 

练 效果 良好 。 
继续 执行 程序 ,可 得 到 待 分 类 样本 的 分 类 结 


ac = 
1 一 15 列 

3 3 二 经 4 2 沦 对 4 L | 二 交 
4 

16 一 30 列 


Hm. Et a 
3 
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6.6.5 结论 


从 分 类 结果 可 以 看 出 广义 神经 网 络 的 分 类 效果 优 于 径 向 基 神 经 网 络 , 广 义 神经 网 络 能 
够 以 任意 精度 逼近 任意 非 线性 连续 函数 。 其 网 络 训练 非常 简单 , 当 训 练 样本 通过 隐 含 层 的 
同时 ,网络 训练 随即 完成 。 它 的 训练 过 程 不 需要 和 太 代 , 它 比 BP 网 络 的 训练 过 程 快 得 多 ,更 
适合 于 在 线 数据 的 实时 处 理 。 

由 于 简单 的 网 络 结构 ,我 们 不 需要 对 网 络 的 隐 含 层 数 和 隐 含 单元 的 个 数 进行 估算 和 猜 
测 。 由 于 它 是 从 径 向 基 函 数 引申 而 来 ,因此 只 有 一 个 自由 参数 , 即 径 向 基 见 数 的 平滑 参数 。 
而 它 的 优化 值 通 过 交叉 验证 的 方法 很 容易 得 到 。 


小 波 神经 网 络 


小 波 分 析 是 20 世纪 80 年 代 中 期 发 展 起 来 的 一 门 新 的 数学 理论 和 方法 ,是 时 间 一 频率 
分 析 领 域 的 一 种 新 技术 。 小 波 分 析 的 基本 思想 类 似 于 傅 里 叶 变 换 , 其 函数 通过 一 族 基 消 数 
在 空间 上 的 投影 来 表征 。 神 经 网 络 起 源 于 20 世纪 40 年 代 , 是 由 大 量 简 单 的 处 理 单元 (神经 
元 ) 广 泛 地 互相 连接 形成 的 复杂 网 络 系 统 , 它 反映 了 人 脑 功 能 的 许多 基本 特征 ,是 一 个 高 度 
复杂 的 非 线 性 动力 学 系统 。 由 于 小 波 变换 能 够 反映 信号 的 时 频 局 部 特性 和 聚焦 特性 ,而 神 
经 网 络 在 信号 处 理 方面 具有 自学 习 、 自 适应 \、 健 壮 性 、 容 错 性 等 能 力 ,如 何 把 二 者 的 优势 结合 
起 来 一 直 是 人 们 所 关心 的 问题 。 小 波 神 经 网 络 正 是 小 波 分 析 和 神经 网 络 相 结合 的 产物 。 


6.7.1 小 波 神经 网 络 的 基本 结构 


小 波 变 换 被 认为 是 傅 里 叶 发 展 史 上 一 个 新 的 里 程 碑 , 它 克服 了 傅 里 叶 分 析 不 能 作 局 部 
分 析 的 缺点 ,是 傅 里 时 分 析 划 时 代 发 展 的 结果 。 随 着 小 波 理论 发 展 日 益 成 熟 ,其 应 用 领域 也 
变 得 十 分 广泛 ,特别 是 在 信号 处 理 、 数 值 计算 、 模 式 识别 .图 像 处 理 .语音 分 析 、 量 子 物 理 、 生 
物 医学 工程 .计算 机 视觉 .故障 诊断 及 众多 非 线性 领域 等 ,小 波 变换 都 在 不 断 发 展 之 中 。 

神经 网 络 是 在 现代 神经 学 的 研究 基础 上 发 展 起 来 的 一 种 模仿 人 脑 信息 处 理 机 制 的 网 络 
系统 , 它 具 有 自 组 织 .自学 习 和 极 强 的 非 线性 处 理 能 力 , 能 够 完成 学 习 .记忆 、 识 别 和 推理 等 
功能 。 神 经 网 络 的 崛起 ,对 认 知 和 智力 本 质 的 基础 研究 万 至 计算 机 产业 都 产生 了 空前 的 刺 
激 和 极 大 的 推动 作用 。 

目前 ,小 波 分 析 与 神经 网 络 主要 有 两 种 结合 方式 : 一 种 是 “松散 型 ”, 如 图 6-46 所 示 , 即 
先 用 小 波 分 析 对 信号 进行 预 处 理 ,然后 青 送 入 神经 网 络 处 理 ; 另 一 种 是 “ 紧 致 型 ", 如 图 6-47 
所 示 , 即 小 波 神经 网 络 (wavelet neural network) 或 小 波 网 络 , 它 是 结合 小 波 变 换 理论 与 神 
经 网 络 的 思想 而 构造 的 一 种 新 的 神经 网 络 模型 。 其 方法 是 将 神经 网 络 隐 含 层 中 神经 元 的 传 
递 激发 函数 用 小 波 函 数 来 代替 ,充分 继承 了 小 波 变换 良好 的 时 频 局 部 化 性 质 及 神经 网 络 的 
自学 习 功 能 的 特点 ,被 广泛 运用 于 信号 处 理 、 数 据 压缩 、 模 式 识别 和 故障 诊断 等 领域 。“ 紧 致 
型 ?小波 神经 网 络 具 有 更 好 的 数据 处 理 能 力 , 是 小 波 神经 网 络 的 研究 方向 。 在 图 6-47 中 ,有 


输入 层 、 隐 含 层 和 输出 层 , 输 出 层 采用 线性 输出 ,输入 层 有 mm 一 1,2,… ,MD) 个 神经 元 , 隐 
含 层 有 klk 二 1,2,… ,KK) 个 神经 元 ,输出 层 有 n(n 二 1,2,… ,NN) 个 神经 元 。 


洪 凡 英之 
可 


图 6-47 小 波 神经 网 络 紧 致 型 结构 


根据 基 函 数 gr (xz) 和 学 习 参 数 的 不 同 ,图 6-47 中 小 波 神经 网 络 的 结果 可 分 为 3 类 。 
(1) 连续 参数 的 小 波 神经 网 络 。 这 是 小 波 最 初 被 提出 采用 的 一 种 形式 。 令 图 6-47 中 
基 函 数 为 


gj(x) IIv¥(=—) 更 (Aiz 一 的) (6-64) 
则 网 络 输出 为 
奖 = Ciey(a) (6-65) 
其 中 1<j<K,Aj 一 diag(ay' ,La ) ,1 二 i 才 N;, 刀 = 二 [ajbysLsyawjybmj]" ,在 网 络 学 习 中 尺 
度 因 子 a; ,平移 因子 b; 、 输 出 权 值 Gj 一 起 通过 某 种 修正 。 这 种 小 波 网 络 类 似 于 径 向 基 范 数 
网 络 , 借 助 于 小 波 分 析 理 论 , 可 使 网 络 具 有 和 较 简 单 的 拓扑 结构 和 较 快 的 收敛 速度 。 但 由 于 尺 
度 和 评议 参数 均 可 调 , 使 其 与 输出 为 非 线 性 关系 ,通常 需 利用 非 线 性 优化 方法 进行 参数 修 
正 , 易 带 来 类 似 BP 网 络 参数 修正 时 存在 局 部 极 小 值 的 弱点 。 
(2) 由 框架 作为 基 范 数 的 小 波 神经 网 络 。 由 于 不 考虑 正 交 性 ,小 波 函 数 的 选取 有 很 大 
的 自由 度 。 令 图 6-47 中 的 基 函 数 为 


[2 获 
g(z) = [[ g(x) = [到 2z 一 已 (6-66) 
i=1 i=1 
则 网 络 输 出 为 
站 一 DCiaYis (6-67) 


根据 函数 f 的 时 频 特 性 确定 取 值 范围 后 ,网 络 的 可 调 参 数 只 有 权 值 ,其 与 输出 呈 线 性 
关系 ,可 通过 最 小 二 乘法 或 其 他 优化 法 修正 权 值 .使 网 络 能 充分 逼近 f(x)。 


这 种 形式 的 网 络 虽 然 基 函数 选取 灵活 ,但 由 于 框架 可 以 是 线性 相关 的 ,使 得 网 络 函数 的 
个 数 有 可 能 存在 元 余 , 对 过 于 庞大 的 网 络 需 考虑 优化 结构 算法 。 
(3) 基于 多 分 辨 分 析 的 正 交 基 小 波 网 络 。 网 络 隐 节点 由 小 波 节点 亚 和 尺度 函数 节点 p 
构成 ,网 络 输出 为 
KT) = > diupis(z) 十 >) CiaYia(r) (6-68) 


J i>L'k€r 
当 尺 度 工 足够 大 时 ,忽略 式 (6-68) 右 端 第 2 项 表示 的 小 波 细节 分 量 , 这 种 形式 的 小 波 网 
络 的 主要 依据 是 Daubechies 的 紧 支 撑 正 交 小 波及 Mallat 的 多 分 辨 分 析 理 论 。 
尽管 正 交 小 波 网 络 在 理论 上 研究 较为 方便 ,但 正 交 基 函 数 的 构造 复杂 ,不 如 一 般 的 基于 
框架 的 小 波 网 络 实用 。 


6.7.2 小 波 神经 网 络 的 训练 算法 


小 波 神经 网 络 最 早 是 由 法 国 著名 的 信息 科学 机 构 IRISA 的 Zhang Qinghua 等 于 1992 
年 提出 的 ,是 在 小 波 分 析 的 基础 上 提出 的 一 种 多 层 前 馈 模 型 网 络 , 可 以 使 网 络 从 根本 上 避免 
局 部 最 优 并 且 加 快 了 收敛 速度 ,具有 很 强 的 学 习 和 泛 化 能 力 。 小 波 神经 网 络 是 用 非 线 性 小 
波 基 上 取代 通常 的 非 线性 sigmoid 函数 ,其 信号 表述 是 通过 将 所 选取 的 小 波 基 进行 线性 释 加 
来 表现 的 。 

设 小 波 神经 网 络 有 个 输入 节点 、N 个 输出 节点 .n 个 隐 层 节点 。 网 络 的 输入 和 输出 
数据 分 别 用 向 量 XX 和 YY 来 表示 , 即 

X= Tir Tm), Y= (yy ys) 

车 设 zx 为 输入 层 的 第 & 个 输入 样本 ,> 为 输出 层 的 第 i 个 输出 值 ,wi 为 连接 输出 层 节 
点 i 和 隐 含 层 节点 j 的 权 值 ,wi 为 连接 隐 含 层 节点 7 和 输出 层 节点 & 的 权 值 。 令 ww 是 第 j 
个 输出 层 节 点 阔 值 ,zwp 是 第 7 个 隐 含 层 节点 阔 值 (相应 的 输入 zo 二 一 1) ,aj 为 第 j 个 隐 含 层 
节点 的 伸缩 因子 、b; 为 第 7 个 隐 含 层 节点 的 平移 因子 , 则 小 波 神经 网 络 模型 为 


y= | Doyesl( > wuzeo) | (6-69) 
i=0 k=0 
， 1 . 

式 中 ,i=1,2,*…,N; ca 一 证 or。 令 net; 一 Te, 料 

lt) — 一 人 (6-70) 
aj 
则 y: = ol Dwsyars Cnet;) | (6-71) 
i=0 


给 定 样本 集 { (zi,yi)) ,i 二 1,2,…,N 后 ,网 络 的 权 值 被 调整 ,使 如 下 的 误差 目标 函数 达 
到 最 小 


E(w = 二 六 | (6-72) 
式 中 ,d; 为 网 络 的 输出 向 量 ,W 为 网 络 中 所 有 权 值 组 成 的 权 疝 量 ,WER:。 网 络 的 学 习 可 以 
归结 为 如 下 的 无 约束 最 优化 问题 : 


小 波 神经 网 络 采 用 梯度 法 , 即 最 快 下 降 法 来 求解 该 问题 ,那么 小 波 网 络 的 权 值 的 调整 规 


则 处 理 过 程 分 为 两 个 阶段 : 一 是 从 网 络 的 输入 层 开 始 逐 层 向 前 计算 ,根据 输入 样本 计算 各 
层 的 输出 ,最 终 求 出 网 络 输出 层 的 输出 ,这 是 前 向 传播 过 程 ; 二 是 对 权 值 的 修正 ,从 网 络 的 
输出 层 开 始 逐 层 向 后 进行 计算 和 修正 ,这 是 反 向 传播 过 程 。 两 个 过 程 反 复 交 替 , 直 到 收敛 为 
止 。 通 过 不 断 修正 权 值 W, 使 E(ee ) 达 到 最 小 值 。 

令 df 为 第 P 个 模式 第 i ba 


让 = 下 沁 际 1 (6-73) 
p=1 3=1 
则 可 以 计算 得 到 下 列 偏 导数 
IE 局 
2 一 一 Dd? — yt) yt — yf) yas Cnet?) (6-74) 
Qs p=1 
aE A 
PD a? — yt) yf 1 — yf) wps net? ) xt /as (6-75) 
OW p=1 i=1 
aE ee 忆 Cnet? 一 万 ) 
一 一 2 Dd — yt yt — yf owsges nett) 一 /ai (6-76) 
9a; p=1 i=1 aj 
aE Dar 2 WW (6-77) 
oapb; er 
为 了 加 快 算法 的 收敛 速度 ,引入 动量 因子 ,因此 权 向 量 的 迭代 公 
(tt) = 0 -7 +aAwa(t) (6-78) 
aE 
wn ltt D = wl) — ni +e dw) (6-79) 
aE 
ajtt 1 一 ai(O EA (6-80) 
wy 
, aE 
bi; (t+ 1) 一 已 一 7 也 二 aAb;(t) (6-81) 
ov 


在 网 络 权 值 的 调整 过 程 中 ,往往 是 在 学 习 的 初始 阶段 ,学 习 步 长 选择 大 一 些 ,以 使 学 习 
速度 加 快 ; 当 接近 最 佳 点 时 ,学 习 速率 选择 小 一 些 ,否则 连接 权 值 将 产生 振荡 而 难以 收敛 。 
学 习 步 长 调整 的 一 般 规则 是 : 在 连续 迭代 几 步 过 程 中 , 若 新 误差 大 于 旧 误 差 , 则 学 习 速率 减 
小 ; 若 新 误差 小 于 旧 误 差 , 则 学 习 步 长 增 大 。 


6.7.3 小 波 神经 网 络 结构 设计 


1. 小 波 函 数 的 选择 


小 波 的 选择 具有 相对 的 灵活 性 ,对 不 同 的 数据 信号 ,x 要 选择 恰当 的 小 波 作为 分 解 基 。 
小 波 变 换 不 像 傅 里 叶 变 换 那 样 是 由 正弦 函数 唯一 决定 的 .小波 基 可 以 有 很 多 种 ,不同 的 小 波 
适合 不 同 的 信号 

(1) Mexican ee 小 波 基 没 有 尺度 函数 ,是 非 正 交 小 波 基 。 其 优点 是 函数 对 
称 且 表 达 式 清楚 简单 ,缺点 是 无 法 对 分 解 后 的 信号 进行 重 构 。 采 用 Morlet 小 波 (r 通常 取 
值 为 1.75) 构 造 的 小 波 网 络 已 经 被 用 于 各 种 领域 。 
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(2) Daubechies 是 一 种 具有 紧 支撑 的 正 交 小 波 , 随 着 N 的 增加 ,Daubechies 小 波 的 时 
域 支 撑 长 度 变 长 ; 矩阵 阶 数 增加 ; 特征 正则 性 增加 , 幅 频 特 性 也 越 接 近 理 想 。 当 选取 N 值 
越 大 的 高 阶 db 小 波 时 ,其 构成 可 近似 看 成 是 一 个 理想 的 低 通 滤波 器 和 理想 的 带 通 滤波 器 ， 
且 具 有 能 量 无 损 性 。 
通常 在 信号 的 近似 和 估计 作用 中 ,小 波 函 数 的 选择 应 与 信号 的 特征 匹配 ,应 考虑 小 波 的 
波形 支撑 大 小 和 消失 和 矩阵 的 数目 。 连 续 的 小 波 基 邱 数 都 在 有 效 支撑 区 域 之 外 快速 衰减 。 
有 效 支 撑 区 域 越 长 ,频率 分 辩 率 越 好 ; 有 效 支 撑 区 域 越 短 ,时 间 分 辩 率 越 好 。 如 果 进 行 时 频 
分 析 , 则 要 选择 光滑 的 连续 小 波 , 因 为 时 域 越 光滑 的 基 函 数 在 频 域 的 局 部 化 特性 方面 越 好 。 
如 果 进 行 信号 检测 , 则 应 尽量 选择 与 信号 波形 相近 似 的 小 波 。 


2. 隐 含 层 节点 的 选取 


隐 含 层 节点 的 作用 是 从 样本 中 提取 并 存储 其 内 在 规律 ,每 个 隐 含 层 节点 有 若干 个 权 值 ， 
而 每 个 权 值 都 是 增强 网 络 映射 能 力 的 参数 。 隐 含 层 节 点 数量 太 少 ,网 络 从 样本 中 获取 信息 
的 能 力 就 差 , 不 足以 概括 和 体现 训练 集中 的 样本 规律 ; 隐 含 层 节点 数目 太 多 ,又 可 能 把 样本 
中 非 规律 性 的 内 容 记 牢 ,从 而 出 现 所 谓 的 “过 拟 合 " 问 题 , 反 而 降低 了 网 络 的 泛 化 能 力 。 此 
外 , 隐 含 层 节 点 数 过 多 会 增加 神经 网 络 的 训练 时 间 。 


6.7.4 小 波 神经 网 络 分 类 器 的 MATLAB 实现 


1， 程序 模块 介绍 
程序 中 用 到 的 小 波 神经 网 络 工具 箱 调用 代码 如 下 : 


function y= d_mymorlet(t) 

y= —1.75x*sin(1.75#*t). xexp(— (t.*2)/2) -tx cos(1.75*xt). x*exp( — (t.*^2)/2); 
function y= mymorlet(t) 

Y = exp(— (t.*2)/2) * cos(1.75 x*xt); 


1) 初始 化 程序 
在 程序 开始 ,首先 需要 设置 网 络 的 相关 参数 。 
网 络 参数 配置 的 MATLAB 程序 代码 如 下 : 


load wavelet2 input output input_ test output test 


M= size( input, 2); 外 输入 节点 个 数 
N= size(output,2); 名 输出 节点 个 数 
n=10; 名 隐形 节点 个 数 
1lrl =0.01; 名 学 习 概率 
1r2 =0.001; 名 学 习 概 率 


maxgen = 200; 当 和 迭代 次 数 


节点 初始 化 代码 如 下 ， 


权 值 学 习 增 量 初始 化 代码 如 下 : 


输入 输出 数据 归 一 化 处 理 代码 如 下 : 


2) 网 络 训练 程序 
网 络 训练 的 MATLAB 程序 代码 如 下 : 


3) 计算 误差 和 
计算 误差 和 使 用 如 下 语句 : 


4) 权 值 调整 
权 值 调整 的 程序 代码 如 下 : 


5) 网 络 预测 
网 络 预测 的 程序 代码 如 下 : 
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for j=1:1:n 
for k=1:1:M 
net(j) = net(j) + Wik(j,k) xx test(k); 
net ab(j)= (net(j)—b(j))/a(j); 
end 
temp = mymorlet (net ab(j)); 
for k=1:N 
Y(k) = Y(k) + Wij(k, j) * temp; 
end 
end 
Yuce(i) = y(k); 
Y= zeros(1,N); 
net = zeros(1,n); 
net ab= zeros(1,n); 
end 


2. MATLAB 完整 程序 及 仿真 结果 
小 波 神经 网 络 数据 分 类 的 完整 MATLAB 程序 代码 如 下 : 
%g% 清空 环境 变量 


Ce 

clear 

%% 网 络 参 数 配置 

load wavelet2 input output input test output test 

M= sizel( input, 2); 名 输入 节点 个 数 

N= size(output, 2); # 输出 节点 个 数 
n=10; 外 隐形 节点 个 数 
1r1=0.01; 名 学 习 概率 
lr2=0.001; 学习 概 率 

maxgen = 200; 多 和 迭代 次 数 

% 权 值 初始 化 

Wjk= randn(n,M) ;Wjk 1= Wjk;Wjk 2= Wjk 1; 多 多 Wjk 和 Wij 为 网 络 连接 权重 
Wij = randn(N,n) ;Wij 1=Wij;Wij 2= Wij 1; 

a= randn(1,n);a 1=a;a 2=a 1; 小 波 函 数 伸缩 因子 
b=randn(1,n);b 1=b;b 2=b 1; % 多 小波 函数 平移 因子 
和 节点 初始 化 


Y= zeros(1,N); 
net = zeros(1,n); 
net ab= zeros(1,n); 
当权 值 学 习 增 量 初始 化 
d_Wjk= zeros(n, M) 
d Wij = zeros(N,n); 
d a= zeros(1,n); 
d_ b= zeros(1,n); 
%% 输入 输出 数据 归 一 化 
[inputn, inputps] = mapminmax( input'); 
[outputn, outputps] = mapminmax( output'); 
inputn = inputn'; 
outputn = outputn'; 
和 网 络 训练 
for 大 = 1:maxgen 
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(1) 将 前 29 组 数据 (29X3) 作 为 训练 输入 ,后 30 组 数据 (30X3) 作 为 测试 输入 ,并 将 得 


到 的 结果 与 实际 分 类 进行 比 对 。 


设置 迭代 次 数 为 200 次 ,网络 进化 过 程 如 图 6-48 所 示 ,预测 分 类 结果 如 图 6-49 所 示 。 


网 络 进化 过 程 
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十 已 加 十 No 


协 府 服 永 


进化 次 数 
图 6-48 网 络 进 化 过 程 (200 次 ) 


数据 组 
图 6-49 预测 分 类 结果 (200 次 ) 


对 预测 分 类 的 输出 结果 (yn) 如 下 : 


16 一 30 列 


288 


ES 


由 网 络 的 进化 过 程 曲线 可 以 看 出 , 当 进化 次 数 为 100 次 的 时 候 , 误 差 已 经 趋 于 稳定 ,学 
习 速 率 较 快 ,但 是 由 预测 分 类 的 结果 可 以 看 出 ,30 组 数据 的 分 类 结果 并 没有 和 实际 分 类 完 


全 重合 ,有 4 组 数据 的 分 类 不 准确 ,错误 率 约 为 4/30( 约 13%)。 


行 第 


因此 尝试 增加 和 迭代 次 数 , 进 


次 分 类 。 
设置 迭代 次 数 为 300 次 ,网 络 进化 过 程 如 图 6-50 所 示 ,预测 分 类 结果 如 图 6-51 所 示 。 


网 络 进化 过 程 


图 6-50 ”网络 进 化 过 程 (300 次 ) 


数据 组 
预测 分 类 结果 (300 次 ) 


图 6-51 


对 预测 分 类 的 输出 结果 (yn) 如 下 : 


二 
1 一 15 列 
NECUES LAR 2 
16 ~ 30 列 
3 4 


由 网 络 的 进化 过 程 曲线 可 以 看 出 , 当 进 化 次 数 为 100 次 时 ,误差 已 经 趋 于 稳定 ,学 习 速 
率 较 快 ,但 是 由 预测 分 类 的 结果 可 以 看 出 ,30 组 数据 的 分 类 结果 依然 没有 和 实际 分 类 完全 
重合 ,有 3 组 数据 的 分 类 是 不 准确 的 ,错误 率 约 为 3/30(10%), 亦 即 通过 增加 和 迭代 次 数 , 错 
误 率 有 一 定 的 下 降 。 下 面 将 尝试 继续 增加 训练 次 数 , 进 行 第 三 次 分 类 。 
设置 迭代 次 数 为 1000 次 ,网 络 进化 过 程 如 图 6-52 所 示 ,预测 分 类 结果 如 图 6-53 所 示 。 
网 络 进化 过 程 
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进化 次 数 
图 6-52 网络 进化 过 程 (1000 次 ) 


~ 


数据 组 
图 6-53 ”预测 分 类 结果 (1000 次 ) 


对 预测 分 类 的 输出 结果 (yn) 如 下 : 


1 一 15 列 
SSE SO SEE 4 
16 一 30 列 


2 4 1 4 2 2 3 3 于 p 4 | ei 3 


(2) 将 前 49 组 数据 (49X3) 作 为 训练 输入 ,后 10 组 数据 (10X3) 作 为 测试 输入 ,将 得 到 


的 结果 与 实际 分 类 进行 比 对 。 
设置 迭代 次 数 为 200 次 ,网 络 进化 过 程 如 图 6-54 所 示 ,预测 分 类 结果 如 图 6-55 所 示 。 
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图 6-54 网络 进 化 过 程 (200 次 ) 
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图 6-55 ”预测 分 类 结果 (200 次 ) 


预测 分 类 的 输出 结果 (yn) 如 下 : 


yn = 
2 x 3 让 4 二 3 3 | 


设置 迭代 次 数 为 300 次 ,网 络 进化 过 程 如 图 6-56 所 示 ,预测 分 类 结果 如 图 6-57 所 示 。 
网 络 进化 过 程 
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图 6-56 网 络 进化 过 程 (300 次 ) 


预测 分 类 


图 6-57 预测 分 类 结果 (300 次 ) 


模式 识别 与 人 工 智 能 (基于 MATLAB) 


6.7.5 结论 


通过 酒 瓶 颜色 分 类 实例 可 知 , 通 过 调整 训练 数据 个 数 及 迭代 次 数 , 小 波 神 经 网 络 可 以 得 
到 理想 的 预测 效果 。 小 波 神经 网 络 具 有 良好 的 局 部 性 特征 ,弥补 了 常规 神经 网 络 寻 优 速度 
慢 、 实 时 性 差 的 缺点 。 实 验 结果 表明 ,小 波 神经 网 络 预 测 模 型 的 预测 精度 明显 优 于 BP 神经 
网 络 , 具 有 较 高 的 应 用 价值 。 


全 局 则 | 其 他 形式 的 神经 网 络 
在 此 只 介绍 竞争 型 人 工 神经 网 络 .概率 神 经 网 络 和 CPN 神经 网 络 。 


6.8.1 竞争 型 人 工 神经 网 络 一 一 自 组 织 竞争 


在 实际 的 神经 网 络 中 ,比如 人 的 视网膜 中 ,存在 着 一 种 “竞争 "现象 , 即 一 个 神经 细胞 兴 
奋 后 ,通过 它 的 分 支 会 对 周围 其 他 神经 细胞 产生 影响 ,使 网 络 向 更 有 利于 竞争 的 方向 调整 ， 
即 一 个 “获胜 ”其 他 “全 输 ”。 

自 组 织 竞 争 人 工 神 经 网 络 正 是 基于 上 述 生物 结构 和 现象 形成 的 。 神 经 网 络 分 类 器 的 学 
习 方 法 ,除了 有 导师 或 监督 (supervised)、 自 监督 (self-supervised) 学 习 方 法 外 ,还 有 一 种 很 
重要 的 无 导师 或 非 监 督 (unsupervised) 学 习 方法 。 自 组 织 竞争 系统 就 属于 无 导师 型 神经 网 
络 ,这 种 自 组 织 系统 在 待 分 类 的 模式 无 任何 先 验 学 习 的 情况 下 ,很 有 用 。 它 能 够 对 输入 模式 
进行 自 组 织 训练 和 判断 ,并 将 其 最 终 分 为 不 同 的 类 型 。 

与 BP 网 络 相 比 ,这 种 自 组 织 自 适应 的 学 习 能 力 进 一 步 拓 宽 了 人 工 神经 网 络 在 模式 识 
别 和 分 类 方面 的 应 用 。 另 一 方面 ,竞争 学 习 网 络 的 核心 一 一 竞争 层 , 又 是 许多 其 他 神经 网 络 
模型 的 重要 组 成 部 分 。 


1. 自 组 织 竞争 网 络 


竞争 网 络 由 单 层 神经 元 网 络 组 成 ,其 输入 节点 与 输出 节点 之 间 为 全 互联 结构 。 因 为 网 
络 在 学 习 中 的 竞争 特性 也 表现 在 输出 层 上 ,所 以 竞争 网 络 中 的 输出 层 又 称 为 竞争 层 ,而 与 输 
入 节点 相连 的 权 值 及 其 输入 合 称 为 输入 层 。 其 网 络 结构 图 如 图 6-58 所 示 。 

网 络 竞争 层 各 神经 元 竞争 对 输入 模式 的 响应 机 会 ,最 后 仅 一 个 神经 元 成 为 竞争 的 胜利 
者 ,并 对 那些 与 获胜 神经 元 有 关 的 各 连接 权 值 朝 着 更 有 利于 竞争 的 方向 调整 ,获胜 神经 元 表 
示 输 入 模式 的 分 类 。 

网 络 权 值 的 调整 公式 为 


w5 = ws ta (Ew) (6-82) 
该 网 络 适用 于 模式 识别 和 模式 分 类 ,尤其 适用 于 具有 大 批 相 似 数组 的 分 类 问题 。 
竞争 网 络 适 用 于 具有 典型 聚 类 特性 的 大 量 数据 的 辨识 ,但 当 遇 到 大 量 的 具有 概率 分 布 


图 6-58 自 组 织 竞争 网 络 结构 图 


的 输入 向 量 时 ,竞争 网 络 就 无 能 为 力 了 。 

除了 依靠 竞争 手段 使 神经 元 获胜 的 方法 外 ,还 有 依靠 抑制 手段 使 神经 元 获胜 的 方法 。 
当 竞争 层 某 个 神经 元 的 输入 值 大 于 其 他 所 有 神经 元 的 输入 值 时 ,依靠 其 输出 所 具有 的 优势 
( 即 其 输出 值 较 其 他 的 神经 元 大 ) 通 过 抑制 作用 将 其 他 神经 元 的 输出 值 逐渐 减 小 。 这 样 , 竞 
争 层 各 神经 元 的 输出 就 形成 连续 变化 的 模拟 量 。 

设 网 络 的 输入 向 量 为 P 二 [Pp， p。… pj]; 对 应 网 络 的 输出 向 量 为 A=[a as … as]。 

由 于 竞争 网 络 中 含有 两 种 权 值 ,因此 激活 函数 的 加 权 输 入 和 也 分 为 两 部 分 : 来 自 输入 
节点 的 加 权 输 入 和 N 与 来 自 竞 争 层 内 互相 抑制 的 加 权 输 入 和 G。 对 于 第 i 个 神经 元 ,有 : 
来 自 输 入 节点 的 加 权 输 入 和 


敬一 Dh (6-83) 
来 自 竞争 层 内 互相 抑制 的 加 权 输入 和 
有 一 Dosf ar) (6-84) 
大 ED 


如 果 在 竞争 后 ,第 ;个 节点 * 赢 "了 , 则 用 一 1, 其 中 人 一 六 而 其 他 所 有 节点 的 输出 均 为 0， 
即 几 一 0, 其 中 & 人 1,2，ss 且 Ai 此 时 ,有 一 > on 。 f(as) = ws > 0。 如 果 在 竞争 后 ， 
k=1 


第 i 个 节点 “ 输 ” 了 ,而 * 赢 "的 节点 为 1, 则 


一 1，A 一 / 

| 

1 (6-85) 
一 0， 上 一 1,2，…s BRL 


此 时 , gi = Dw * flar) = wi <0。 
k=1 


所 以 ,对 整个 网 络 的 加 权 输 入 总 和 有 下 式 成 立 
{ 一 7 十 oa， 对 于 “ 赢 ”的 节点 人 


54 二 一 | wu |， 对 于 所 有 “ 赢 ” 的 节点 i 二 1,2,…,s 且 k 关 / 
由 此 可 以 看 出 ,经 过 竞争 后 只 有 获胜 的 那个 节点 的 加 权 输 入 总 和 为 最 大 。 竞 争 网 络 的 
输出 为 


1， sk 一 max(si) i=1,2,.°,s 
CR -| (6-86) 
0， 其 他 


判断 竞争 网 络 节 点 胜 负 的 结果 时 ,可 直接 采用 ni;, 即 
17 赢 一 max( Dsp,) (6-87) 


取 偏 差 5 为 0 是 判定 竞争 网 络 获 胜 节点 时 的 典型 情况 ,偶尔 也 采用 下 式 进行 竞争 结果 
的 判定 


nm = max( Dwrp; +0) 一 (6-88) 
j=1 


综 上 所 述 ,竞争 网 络 的 激活 函数 使 加 权 输 入 和 为 最 大 的 节点 赢得 输出 为 1, 而 其 他 神经 
元 的 输出 皆 为 0。 
这 个 竞争 过 程 可 用 MATLAB 描述 如 下 : 


n=W*P; 

[S,Q] = size(n); 

x=n+bxones(1,0Q); 

Y= max(x); 

forq=1:Q 
名 找 出 最 大 加 权 输 入 和 y(q) 所 在 的 行 ; 
s=find(x(:,q) =y(q)); 
$ 令 元 素 a(z,q) =1, 其 他 值 为 0; 
a(z(1),q) =1; 

end 


这 个 竞争 过 程 的 程序 已 被 包含 在 竞争 激活 函数 compet. m 之 中 ， 


A= compet(Wx P,B); 


网 络 创建 函数 net 二 newc(PR,S,KLR,CLR) ,各 参数 含义 如 下 : 

PR: 输入 向 量 的 范围 ,对 未 归 一 化 的 数据 可 以 用 语句 minmax(P) 求 出 ,P 为 输入 向 量 。 
S: 神经 元 个 数 , 即 分 类 目标 数 。 

KLR: Kohonen 学 习 率 ,通常 设 为 0.1, 默 认为 0.01。 

CLR: Conscience 学 习 率 ,默认 为 0.001, 通 常 为 0.001。 


2. 自 组 织 竞 争 网 络 应 用 于 模式 分 类 


以 表 1-2 的 三 元 色 数 据 为 例 ,按照 颜色 数据 所 表征 的 特点 ,将 数据 按 各 自 所 属 的 类 别 归 
类 。 其 中 ,前 29 组 数据 已 确定 类 别 , 后 30 组 数据 待 确定 类 别 。 
使 用 自 组 织 竞 争 网 络 对 三 元 色 数 据 进行 分 类 ,其 MATLAB 程序 代码 如 下 : 


clear all 

% 训练 样本 

cile> 

% 训练 样本 

pConvert = importdata( 'SelfOrganizationCompetitiontrain. dat'); 
p= pConvert'; 

创建 网 络 


net = newc(minmax(P), 4,0.1); 

名 网 络 初 始 化 

net = init(net); 

s# 设置 训练 次 数 ,在 消耗 时 间 与 精确 度 之 间 折 中 
net.trainParam. epochs = 200; 

名 开始 训练 

net = train(net,P); 

Y= sim(net, P) 

和 分 类 数据 转换 输出 
Yc= vec2ind(Y) 
pause 

包 待 分 类 数据 
dataConvert = importdata( 'SelfOrganizationCompetitionSimulation. dat'); 
data = dataConvert'; 

用 训练 好 的 自 组 织 竞争 网 络 分 类 样本 数据 
Y= sim(net, data); 

Ys= vec2ind(Y) 


由 于 竞争 型 网 络 采用 的 是 无 教师 学 习 方式 ,没有 期 望 输出 ,因此 训练 过 程 中 不 用 设置 判 
断 网 络 是 否 结束 的 误差 项 。 只 要 设置 网 络 训练 次 数 就 可 以 了 ,并 且 在 训练 过 程 中 也 只 显示 
训练 次 数 。 运 行 上 述 程序 后 ,系统 将 显示 运行 过 程 , 并 给 出 聚 类 结果 : 


TRAINR, Epoch 0/200 

TRAINR, Epoch 25/200 

TRAINR, Epoch 50/200 

TRAINR, Epoch 75/200 

TRAINR, Epoch 100/200 

TRAINR, Epoch 125/200 

TRAINR, Epoch 150/200 

TRAINR, Epoch 175/200 

TRAINR, Epoch 200/200 

TRAINR, Maximum epoch reached. 


和 

1 一 16 列 
0 0 A 
这 

17 一 29 列 


4 2 2 4 4 2 过 多 于 4 3 :| 3 


系统 训练 结束 后 ,给 出 分 类 结果 。 由 于 竞争 型 网 络 采用 的 是 无 教师 学 习 方式 ,因此 其 显 
示 分 类 结果 的 方式 与 目标 设置 方式 可 能 不 同 。 这 里 采用 统计 法 比较 自 组 织 竞 争 网 络 给 出 的 
结果 与 原始 分 类 结果 ,如 表 6-7 所 示 。 


表 6-7 自 组 织 竞争 网 络 输出 结果 与 原始 分 类 结果 对 照 表 


A (数据 序号 ) 4.6、16 .25 
B (数据 序号 ) 8、14、15、18、19、22、24 
6 C (数据 序号 ) 1.3.7.11.17.20、21、26 
D (数据 序号 ) 2、5、9、10、12、13、23、27、28、29 
A (数据 序号 ) 4.6、16 .25 
自 组 织 竞 争 网 络 分 类 B (数据 序号 ) 8、14、15、18、19、22、24 
结果 统计 B (数据 序号 ) 1.3.7.11.17.20、21、26 
D (数据 序号 ) 2、5、9、10、12、13、23、27、28、29 


从 统计 结果 可 知 , 自 组 织 竞 争 网 络 输出 结果 与 原始 分 类 结果 完全 吻合 。 继 续 运 行程 序 
则 可 得 到 待 分 类 样本 数据 的 分 类 结果 。 


be 

1 一 15 列 
本 
16 一 30 列 

Sr a 
31 一 45 列 

de a 
46 一 49 列 

2 人 2 


6.8.2 ”竞争 型 人 工 神经 网 络 一 一 自 组织 特 征 映射 神经 网 络 


自 组 织 特征 映射 神经 网 络 (self-organizing feature mapping,SOM) 也 是 无 教师 学 习 网 
络 , 主 要 用 于 对 输入 向 量 进行 区 域 分 类 。 其 结构 与 基本 竞争 型 神经 网 络 很 相似 ,与 自 组 织 竞 
争 网 络 的 不 同 之 处 是 ,SOM 网 络 不 但 识别 属于 区 域 邻近 的 区 域 ,还 研究 输入 向 量 的 分 布 特 
性 和 拓扑 结构 。 

自 组 织 特 征 映射 网 络 的 基本 思想 是 ,最 近 的 神经 元 相互 激励 , 较 远 的 相互 抑制 ,更 远 的 
则 又 具有 较 弱 的 激励 作用 。SOM 网 络 的 拓扑 结构 如 图 6-59 所 示 。 


< 
SA/ 太志 


图 6-59 SOM 网 络 的 拓扑 结构 


SOM 网 络 结构 也 是 两 层 : 输入 层 和 竞争 层 。 与 基本 竞争 网 络 不 同 之 处 是 其 竞争 层 可 
以 由 一 维 或 二 维 网 络 矩 阵 方式 组 成 ,并 且 权 值 修正 的 策略 也 不 同 。 一 维 网 络 结构 与 基本 竞 
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争 学 习 网 络 相同 。 

SOM 网 络 可 以 用 来 识别 获胜 神经 元 i。 不 同 的 是 , 自 组 织 竞争 网 络 只 修正 获胜 神经 元 ， 
而 SOM 网 络 依据 Kohonen 规则 ,同时 修正 获胜 神经 元 附近 区 域 Ni(d) 内 的 所 有 神经 元 。 
SOM 网 络 神经 元 邻 域 示 意图 如 图 6-60 所 示 。 


© 9 OO 
(a) 正方 形 区 域 (b) 六 角形 区 域 


图 6-60 SOM 网 络 神经 元 邻 域 示意 图 


在 MATLAB 工具 箱 中 有 一 个 求 获胜 神经 元 的 邻 域 的 函数 ,在 二 维 竞争 层 中 , 邻 域 函 数 
为 neighb2d. m, 用 法 如 下 : 


Np= [x y]; 
in= neighb2d(I, Np, N); 


网 络 创建 函数 如 下 : 


net = newsom(PR, [D1,D2… ], TECN, DECN) 


各 参数 含义 如 下 。 

PR: 输入 向 量 的 范围 。 

Di: 第 i 维 神经 元 个 数 ,与 分 类 目标 数 有 关 。 

TFCN: 布局 函数 ,默认 为 hextop( 六 角形 布局 )。 

DFCN: 距离 函数 ,默认 为 linkdist( 连 接 距离 )。 

其 他 : 排序 调整 等 学 习 率 ,通常 使 用 默认 值 。 

使 用 自 组 织 特征 映射 神经 网 络 将 三 元 色 数 据 按照 颜色 数据 所 表征 的 特点 归 类 。 
MATLAB 程序 代码 如 下 : 


壮 


clear; 

cley 

% 训练 样本 

pConvert = importdata( 'SelfOrganizationCompetitiontrain. dat'); 
p= pConvert'; 

net = newsom(minmax(p), [4 1]); 

神经 元 排列 为 [1 4] 时 结果 相同 ,只 是 神经 元 的 位 置 改 变 了 
设置 网 络 训练 次 数 

net. trainParam. epochs = 200; 


模式 识别 与 人 工 智能 (基于 MATLAB) 


名 开始 训练 

net = train(net, p); 

名 绘制 网 络 的 神经 元 分 布 图 

plotsom(net. layers{1}.positions); 

多 用 训练 好 的 自 组 织 竞争 网 络 对 样本 点 分 类 
Y= sim(net, p); 

分 类 数据 转换 输出 

Yt= vec2ind(Y) 

pause 

名 待 分 类 数据 
dataConvert = importdata( 'SelfOrganizationCompetitionSimulation. dat') 7 
data = dataConvert'; 

各 用 训练 好 的 自 组 织 竞争 网 络 分 类 样本 数据 
Y= sim(net, data); 

Ys = vec2ind(Y) 


由 于 自 组 织 特征 映射 神经 网 络 采用 的 是 无 教师 学 习 方 式 , 没 有 期 望 输出 ,因此 训练 过 程 
中 不 用 设置 判断 网 络 是 否 结束 的 误差 项 。 只 要 设置 网 络 训练 次 数 就 可 以 了 ,并 且 在 训练 过 
程 中 也 只 显示 训练 次 数 。 运 行 上 述 程序 后 ,系统 显示 运行 过 程 , 并 给 出 聚 类 结果 : 


TRAINR, Epoch 0/200 

TRAINR, Epoch 25/200 

TRAINR, Epoch 50/200 

TRAINR, Epoch 75/200 

TRAINR, Epoch 100/200 

TRAINR, Epoch 125/200 

TRAINR, Epoch 150/200 

TRAINR, Epoch 175/200 

TRAINR, Epoch 200/200 

TRAINR, Maximum epoch reached. 

Yt = 

1 一 16 列 
A 
i 

17 ~ 29 列 

a oa 


系统 训练 结束 后 ,给 出 分 类 结果 。 由 于 竞争 型 网 络 采用 的 是 无 教师 学 习 方式 ,因此 其 显 
示 分 类 结果 的 方式 与 目标 设置 方式 可 能 不 同 。 这 里 采用 统计 法 比较 自 组 织 竞争 网 络 给 出 的 
结果 与 原始 分 类 结果 ,如 表 6-8 所 示 。 
表 6-8 自 组 织 特征 映射 神经 网 络 输出 结果 与 原始 分 类 结果 对 照 


A (数据 序号 ) 4、6、16 .25 
B (数据 序号 ) 8、14、15 ,18、19、22、24 
原始 分 类 结果 统计 一 一 一 
( (数据 序号 ) 1、3、7、11.、17、20、21、26 


D (数据 序号 ) 2、5、9、10、12、13、23、27、28、29 
A (数据 序号 ) 4、6、16 、25 

自 组 织 特征 映射 神经 网 络 B (数据 序号 ) 8、14、15、18、19、22、24 
© L 
D 2 


分 类 结果 统计 (数据 序号 ) 1、3、7、11、17、20、21、26 
(数据 序号 ) 2、5、9、10、12、13、23、27 .28、29 


从 统计 结果 可 知 , 自 组 织 特征 映射 神经 网 络 输出 结果 与 原始 分 类 结果 完全 吻合 。 网 络 
的 神经 元 分 布 图 如 图 6-61 所 示 。 


A EE 
BELEISSE TH 


Neuron Positions 


图 6-61 网 络 的 神经 元 分 布 图 
继续 运行 程序 则 可 得 到 待 分 类 样本 数据 的 分 类 结果 (调整 显示 分 类 结果 方式 后 ) : 


Ys = 

1 一 15 列 

2 4 2 | 4 < | 2 是 4 4 2 4 4 hp ;1 
16 一 30 列 

| 2 1 2 2 4 证 | 2 4 4 4 2 
31 一 45 列 

2 | 2 4 LL 4 2 4 3 2 2 kl 和 4 :I 
46 一 49 列 

4 2 4 + 


6.8.3 ”竞争 型 人 工 神经 网 络 一 一 学 习 向 量 量化 神经 网 络 


学 习 向 量 量化 (learning vector quantization,LVQ) 神 经 网 络 是 一 种 有 教师 训练 竞争 层 
的 方法 ,主要 用 来 进行 向 量 识 别 。LVQ 神经 网 络 是 两 层 的 网 络 结构 : 第 一 层 为 竞争 层 , 和 
前 面 的 自 组 织 竞 争 网 络 的 竞争 层 功能 相似 ,用 于 对 输入 向 量 分 类 ; 第 二 层 为 线性 层 , 将 竞争 
层 传递 过 来 的 分 类 信息 转换 为 使 用 者 所 定义 的 期 望 类 别 。 

通常 将 竞争 层 学 习 得 到 的 类 称 为 子 类 ,经 线性 层 的 类 称 为 期 望 类 别 ( 目 标 类 ) 。 


1. 学 习 向 量 量化 的 基本 模型 

学 习 向 量 量化 网 络 和 自 组 织 映射 网 络 具 有 非常 类 似 的 网 络 结构 ,如 图 6-62 所 示 。 网 络 
由 输入 层 和 输出 层 组 成 ,输入 层 具有 N 个 输入 节点 ,接受 输入 向 量 和 X= [zi ,zs… ,XN]"。 
输出 层 有 M 个 神经 元 , 呈 一 维 线性 排列 。 学 习 向 量 量化 没有 在 输出 层 引 入 拓扑 结构 ,因此 
在 网 络 学 习 中 也 不 再 有 获胜 邻 域 的 概念 。 输 入 节点 和 输出 层 神经 元 通过 权 值 向 量 W= 
[on ws OOMN (一 1,2 Mi; j 三 1,2,… ,NN) 实 现 完全 互 连 。 其 中 任 一 神经 元 用 i 
表示 ,其 输入 为 输入 向 量 和 权 值 向 量 的 内 积 wi 二 WX 二 2 wizi(i 二 1,2,…,MD。 神 经 元 
的 输出 为 二 /Gi) ,其 中 /(，) 为 神经 元 激励 函数 ,一 般 取 为 线性 函数 。 


图 6-62 学 习 向 量 量化 网 络 模 型 


需要 强调 的 是 ,在 学 习 向 量 量化 中 输出 神经 元 被 预先 指定 了 类 别 。 输 出 神经 元 被 分 为 
天 组 而 代表 天 个 类 别 , 每 个 神经 元 所 代表 的 类 别 在 网 络 训练 前 被 指定 好 。 


2. 网 络 的 学 习 算 法 
(1) 设置 变量 和 参量 
X(C) 王 [zi(z) ,Xs (2) ,zxCz)] ,为 输入 向 量 ,或 称 训练 样本 。 
Wi(70) 二 [wn (wy (1) :ww(2)] ,为 权 值 向 量 ,; 一 1,2…,M 一 1,2,…,N。 
选择 学 习 速 度 的 函数 y(n) ,7 为 迭代 次 数 ,K 为 迭代 总 次 数 。 
(2) 初始 化 权 值 向 量 W;(0) 及 学 习 速 率 7(0) 。 
(3) 从 训练 集合 中 选取 输入 向 量 环 。 
(4) 寻找 获胜 神经 元 c 

IX—W.l = min|X—Wl, i=1,2,…,M (6-89) 
(5) 判断 分 类 是 否 正确 。 根 据 以 下 规则 调整 获胜 神经 元 的 权 值 向 量 : 
用 ve 代表 与 获胜 神经 元 权 值 向 量 相 联系 的 类 ,用 L; 代 表 与 输入 向 量 相 联 系 的 类 。 
如 果 工 x 二 Lye; 则 Wn 十 1) 二 We (7D 十 yD)[X 一 We(n)]; 否则 ,车 Lx 关 Lw。; 则 

W.(n 二 1) = Wn — ym LX— Wn)] (6-90) 

对 于 其 他 神经 元 ,保持 权 值 向 量 不 变 。 
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(6) 调整 学 习 速 率 y(n) 
一 a Gs. 
7= 70) (1 ee) (6-91) 


(7) 判断 迭代 次 数 是否 超 过 K : 如 果 mn 三 K, 就 将 值 增加 1, 转 到 (3); 否则 结束 过 
代 过 程 。 

注意 : 在 算法 中 ,必须 保证 学 习 常数 y(n) 随 着 迭代 次 数 的 增加 单调 减 小 。 例 如 ,y(n) 
被 初始 化 为 0. 1 或 更 小 ,之 后 随 着 n 的 增加 而 减 小 。 在 算法 中 我 们 没有 对 权 值 向 量 和 输入 
向 量 进行 归 一 化 处 理 ,这 是 因为 网 络 直接 把 权 值 向 量 和 输入 向 量 的 欧 氏 距离 最 小 作为 判断 
竞争 获胜 的 条 件 。 


3. LVQ 的 实现 代码 
网 络 创建 函数 如 下 : 


net = newlvq(PR, S1, PC, LR, LF) 


函数 各 参数 含义 如 下 。 

PR: 输入 向 量 的 范围 。 

S: 竞争 层 神 经 元 的 个 数 ,可 设置 为 分 类 目标 数 。 

PC: 线性 层 输 出 类 别 比率 向 量 。 

LR: 学 习 率 , 默 认为 0.01。 

LEF: 学 习 函 数 ,默认 为 learnlvl 。 

使 用 学 习 向 量 量 化 神经 网 络 将 三 元 色 数 据 按 照 颜色 数据 所 表征 的 特点 归 类 。 其 
MATLAB 实现 程序 代码 如 下 : 


clear; 

Sles 

# 训练 样本 

pConvert = importdata ('C:\Users\Administrator\Desktop\1ln\SelfOrganizationtrain. dat'); 
p= pConvert'; 

# 训 练 样本 的 目标 矩阵 

t= importdata ('C:\Users\Administrator\Desktop\ln\SelfOrganizationtarget. dat') 7 
二 

向 量 转 斤 

t= ind2vec(t); 

名 创建 网 络 

net = newlvq(minmax(p),4,[.32 .29 .25 .14]); 

开始 训练 

net = train(net, p,t); 

名 用 训练 好 的 自 组 织 竞 争 网 络 对 样本 点 分 类 

Y= sim(net, p); 

分 类 数据 转换 输出 

Yt= vec2ind(Y) 

pause 


名 待 分 类 数据 


dataConvert = importdatal 'C: \Users\Administrator\Desktop\1n\SelfOrganizationSimulation. dat'); 
data = dataConvert'; 
名 用 训练 好 的 自 组 织 竞 争 网 络 分 类 样本 数据 
Y= sim(net, data); 
Ys= vec2ind(Y) 


运行 上 述 程序 后 ,系统 显示 运行 过 程 ,并 给 出 聚 类 结果 : 


TRAINR, Epoch 0/100 

TRAINR, Epoch 4/100 

TRAINR, Performance goal met. 

Yt = 

1 一 15 列 

:3 0 0 0 0 0 
16 一 29 列 


图 6-63 为 神经 网 络 训练 模块 ,在 这 里 可 以 查看 训练 结果 .训练 状态 等 。 训 练 后 即 可 达 
到 对 误差 的 要 求 , 结 果 如 图 6-64 所 示 。 
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图 6-63 神经 网 络 训练 图 
训练 后 的 LVQ 网 络 对 训练 数据 进行 分 类 后 的 结果 与 目标 结果 对 比如 表 6-9 所 示 。 
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6-64 学 习 向 量 量化 神经 网 络 训练 结果 图 


表 6-9 训练 后 的 LVQ 网 络 对 训练 数据 进行 分 类 后 的 结果 与 目标 结果 对 比 


| | Neural Network Training Performance (plotperform), Epoch 4, Performance goal me 
Best Training Performance is 0 at epoch 4 


序 A B C 原始 分 类 结果 LVQ 网 络 分 类 结果 
1 1739. 94 1675. 15 2395. 96 3 3 
2 373. 3 3087.05 2429. 47 4 4 
3 1756.77 1652 1514. 98 3 3 
4 864.45 1647. 31 2665.9 1 1 
5 222. 85 3059. 54 2002. 33 4 4 
6 877. 88 2031. 66 3071. 18 1 1 
7 1803. 58 1583. 12 2163.05 3 3 
8 2352. 12 2557. 04 1411. 53 2 2 
9 401. 3 3259. 94 2150. 98 4 4 
10 363. 34 3477. 95 2462. 86 4 4 
11 1571. 17 1731. 04 1735. 33 3 3 
12 104. 8 3389. 83 2421. 83 4 4 
13 499. 85 3305.75 2196. 22 4 4 
14 2297.28 3340. 14 535. 62 2 2 
15 2092. 62 3177. 21 584. 32 2 2 
16 1418. 79 1775. 89 2772. 9 1 1 
Ld 1845. 59 1918. 81 2226. 49 3 3 
18 2205. 36 3243.74 1202. 69 2 2 
19 2949. 16 3244. 44 662. 42 2 2 
20 1692. 62 1867.5 2108. 97 3 3 
21 1680. 67 1575.78 1725.1 3 3 


续 表 
序 号 A B C 原始 分 类 结果 LVQ 网 络 分 类 结果 
22 2802. 88 3017. 11 1984. 98 2 2 
23 172.78 3084. 49 2328. 65 4 1 
24 2063. 54 3199. 76 1257. 21 2 2 
25 1449. 58 1641. 58 3405. 12 和 1 
26 1651. 52 1713. 28 1570. 38 3 3 
27 341. 59 3076. 62 2438. 63 4 1 
28 291.02 3095. 68 2088. 95 4 1 
29 237. 63 3077.78 2251. 96 4 4 


由 表 6-9 可 见 , 训 练 后 的 LVQ 网 络 对 训练 数据 进行 分 类 后 的 结果 与 目标 结果 完全 吻 


合 , 表 明 LVQ 网 络 训练 效果 良好 。 继 续 运 行程 序 则 可 得 到 待 分 类 样本 数据 的 分 类 结果 
WH 
1 一 15 列 
3 让 下 人 汉王 代 天 于 六， 克 
16 一 30 列 
1 - ws :0 
31 一 45 列 
SO 下 2 SA 是 3 让 
46 一 49 列 
和 EL 


比较 三 种 竞争 型 人 工 神经 网 络 分 类 器 的 分 类 结果 : 


Ys = ( 自 组 织 竞争 调整 显示 方式 后 的 输出 结果 ) 


Ys = (SOM 调 整 显示 方式 后 的 输出 结果 ) 


SM 
2 2 
Te 
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3 3 1 
1 1 4 
3 3 1 
加 中 4 
3 3 1 
人 4 


经 对 比 可 知 ,基本 竞争 型 网 络 与 SOM 网 络 的 分 类 结果 相同 ,而 与 LVQ 网 络 第 3 组 数 
据 的 分 类 结果 不 同 ,与 人 工分 类 对 比 ,发 现 LVQ 网 络 出 错 。 前 两 种 网 络 对 数据 的 分 类 完全 


正确 。 


调整 LVQ 网 络 后 用 训练 样本 进行 训练 ,但 分 类 结果 没有 改变 ,与 原 分 类 结果 相同 ( 因 
为 该 网 络 对 其 他 数据 的 分 类 结果 正确 ,所 以 未 对 网 络 参 数 做 调整 ), 原 因为 LVQ 网 络 的 竞 


第 6 章 “神经 网 络 聚 类 设计 


争 层 识别 的 类 别 仅 与 输入 向 量 间 的 距离 有 关 。 如 果 两 个 输入 向 量 类 似 , 竞 争 层 就 可 能 将 其 
归 为 一 类 ,竞争 层 的 设计 并 没有 严格 界定 不 能 将 任意 两 个 输入 向 量 归 于 同一 类 。 


6.8.4 概率 神经 网 络 


1. 概率 神经 网 络 结构 和 工作 原理 


径 向 基 神 经 元 还 可 以 和 竞争 神经 元 一 起 共同 组 建 概率 神经 网 络 (probabilistic neural 
network,PNN)。 概 率 神经 网 络 经 常用 于 解决 分 类 问题 。PNN 的 结构 图 如 图 6-65 所 示 。 
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图 6-65 PNN 的 结构 图 


PNN 的 结构 图 和 径 向 基 函 数 网 络 结构 类 似 , 只 是 在 第 二 层 有 些 差 异 。 其 中 ， 
a! = radbas(|| : IW! — pl 06!) (6-92) 
y= a = compet(IW*'!—a’) (6-93) 
di 为 向 量 a' 的 第 i 个 元 素 ; TIW-” 为 权 值 矩 阵 TW- 的 第 i 个 行 向 量 ; R= 输入 向 量 元 
素 的 数目 三 第 一 层 神经 元 的 数目 ; Q= 输 入 向 量 类 别 的 数目 三 第 二 层 神 经 元 的 数目 。 
PNN 的 第 一 层 仍 与 径 向 基 函 数 网 络 的 第 一 层 类似 。 首 先 计 算 输 入 向 量 与 训练 样本 之 
间 的 距离 ,第 一 层 输出 向 量 表示 输入 向 量 与 训练 样本 之 间 的 接近 程度 。 将 第 二 层 与 输入 向 
量 相关 的 所 有 类 别 综合 在 一 起 ,网 络 输 出 为 表示 概率 的 向 量 ,最 后 通过 第 二 层 的 竞争 
(Compete) 传 递 函 数 进行 取舍 ,概率 最 大 值 的 那 一 类 为 1, 其 他 类 别 用 0 表示 。 
假设 输入 期 望 值 样本 数量 的 数目 为 Q, 期 望 为 KK 维 向 量 ,表示 类 别 只 有 一 个 元 素 为 1， 
其 余 均 为 0。 
PNN 第 一 层 的 输入 权 值 ITW: :为 输入 样本 的 转 置 矩阵 PP ,经 过 |‖ dist |‖ 计算 ,第 一 层 输 
出 向 量 表示 输入 向 量 与 样本 向 量 接近 的 程度 .然后 与 阔 值 向 量 相 乘 ,再 经 过 径 向 传递 函数 计 
算 。 输 入 向 量 与 哪个 样本 最 接近 , 则 a: 相对 应 的 几 个 元 素 均 为 1 。 
第 二 层 权 值 TWW”… 设 定 为 期 望 值 向 量 矩 阵 T, 每 个 行 向 量 只 有 一 个 元 素 为 1, 代 表 相 应 的 
类 别 ,其余 元 素 均 为 0, 然 后 计算 乘积 Ta!。 最 后 通过 第 二 层 传递 函数 竞争 计算 得 到 n? , 较 
大 的 元 素 取 为 1, 其 余 为 0。 至 此 PNN 即 可 完成 对 输入 向 量 的 分 类 。 


2. 概率 神经 网 络 分 类 器 的 实现 步骤 


(1) 提取 样本 数据 ,样本 数据 如 表 1-2 所 示 。 其 中 ,前 29 组 数据 已 确定 类 别 , 后 30 组 数 
据 待 确定 类 别 。 

取 前 29 组 数据 作为 训练 样本 。 为 了 编程 方便 , 先 对 这 29 组 数据 按 类 别 进行 升序 排序 。 
重新 排序 后 的 数据 如 表 1-1 所 示 。 

(2) 调用 ind2vec 函数 ,将 类 别 向 量 转换 为 PNN 可 以 使 用 的 目标 向 量 。 

(3) 设 定 径 向 基 函 数 的 散布 常数 。 

在 概率 神经 网 络 分 类 器 的 设计 中 ,同样 需要 设 定 径 向 基 函 数 的 散布 常数 。 同 样 ,散布 常 
数 是 分 类 器 的 设计 中 非常 重要 的 参数 ,默认 时 为 1。 这 里 散布 常数 确定 在 30 一 260 。 

(4) 调用 函数 newpnn, 构 建 并 训练 PNN。 

在 MATLAB 中 ,构建 概率 神经 网 络 的 函数 文件 为 newpnn(),newpnn 文件 的 定义 
如 下 :; 


net = newpnn(P, T, SPREAD) 


各 个 参数 的 定义 如 下 。 

P: Q 个 输入 向 量 的 RXQ 维和 矩阵 。 这 里 Q 二 29 ,R= 二 3。 

T: Q 个 目标 类 别 向 量 的 SXQ 维和 矩阵 。 这 里 S=1。 
SPREAD: 径 向 基 函 数 的 散布 常数 ,默认 时 为 1.0。 

(5) 调用 sim, 测 试 PNN 的 训练 效果 。 

(6) 再 次 调用 sim, 识 别 测试 样本 所 属 类 别 。 

(7) 调用 vec2ind 函数 将 分 类 结果 转换 为 容易 识别 的 类 别 向 量 。 


3. 实现 概率 神经 网 络 分 类 器 
使 用 MATLAB 软件 实现 概率 神经 网 络 分 类 器 ,程序 代码 如 下 : 


clear; 

cle; 

名 网 络 训练 样本 

pConvert = importdata( 'C:\Users\Administrator\Desktop\RBF\rbf_ train sample data. dat'); 
p= pConvert'; 

名 训练 样本 的 目标 矩阵 

t= importdata( 'C:\Users\Administrator\Desktop\RBF\rbf train target data. dat'); 
plot3(p(1,:),p(2,:),p(3,:), '0'); 

grid; box; 

for i=1:29,text(p(1, i),p(2, i), p(3, i), sprintf(' %g',t(i))),end 

名 以 图 形 方式 输出 训练 样本 点 

hold off 

| 

indexl = find(f == 1); 

index2 = find(f == 2); 

index3 = find(f == 3); 


index4 = find(f == 4); 

line(p(1, indexl1),p(2, indexl),p(3, index1), 'linestyle', 'none', 'marker',' * ', 'color', 'g'); 
line(p(1, index2), p(2, index2),p(3, index2), 'linestyle', 'none', 'marker', ' x ', 'color', 'r'); 
line(p(1, index3),p(2, index3),p(3, index3), 'linestyle', 'none', 'marker',' + ', 'color', 'b'); 
line(p(1, index4), p(2, index4),p(3, index4), 'linestyle', 'none', 'marker', ' + ', 'color', 'y'); 
box; grid on; hold on; 

axis([0 3500 0 3500 0 3500]); 

title(' 训 练 用 样本 及 其 类 别 '); 

xlabel( 'A'); 

Ylabel( 'B'); 

zlabel( 'C'); 

pause 

t= ind2vec(t); 

Spread = 30; 

% PNN 网 络 的 创建 和 训练 过 程 

net = newpnn(p, t, spread); 

A= sim(net, p); 

Ac= vec2ind(A) 

plot3(p(1, :),p(2, :),p(3, :), '.'), grid; box; 

axis([0 3500 0 3500 0 3500]) 

for i=1:29, text(p(1,i),p(2, i),p(3, i), sprintf(' %g',Ac(i))),end 

s$ 以 图 形 方式 输出 训练 结果 

hold off 

f=Ac'; 

indexl = find(f == 1); 

index2 = find(f == 2); 

index3 = find(f == 3); 

index4 = find(f == 4); 

line(p(1, indexl),p(2,indexl),p(3, index1), 'linestyle', 'none', 'marker', ' * ', 'color', 'g'); 
line(p(1, index2),p(2, index2),p(3, index2), 'linestyle', 'none', 'marker', ' * ', 'color', 'r'); 
line(p(1, index3),p(2, index3),p(3, index3), 'linestyle', 'none', 'marker', ' + ', 'color', 'b'); 
line(p(1, index4),p(2, index4),p(3, index4), 'linestyle', 'none', 'marker', ' + ', 'color', 'y'); 
box; grid on; hold on; 

title(' 网 络 训练 结果 '); 

xlabel( 'A'); 

ylabel( 'B'); 

zlabel( 'C'); 

pause 

名 对 待 分 类 样本 进行 分 类 

pConvert = importdata( 'C:\Users\Administrator\Desktop\RBF\rbf_simulate data. dat'); 

p= pConvert'; 

a= sim(net, p); 

ac= vec2ind(a) 


运行 上 述 程序 后 ,系统 首先 输出 训练 用 样本 及 其 类 别 分 类 图 ,如 图 6-66 所 示 。 接 着 输 
出 PNN 的 训练 结果 图 ,如 图 6-67 所 示 。 

训练 用 样本 及 其 类 别 分 类 图 与 PNN 的 训练 结果 图 是 完全 吻合 的 ,用 户 可 改变 视角 查 
看 。 此 外 ,通过 训练 后 的 PNN 对 训练 数据 进行 分 类 后 的 结果 与 目标 结果 对 比 表 也 可 验证 
上 述 结论 ,如 表 6-10 所 示 。 
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图 6-67 PNN 的 训练 结果 图 


表 6-10 训练 后 的 PNN 对 训练 数据 进行 分 类 后 的 结果 与 目标 结果 对 比 


序 号 A B 息 目标 结果 PNN 分 类 结果 
4 864. 45 1647. 31 2665.9 1 和 
6 877. 88 2031. 66 3071. 18 1 i 
16 1418. 79 1775. 89 2772.9 和 
25 1449. 58 1641. 58 3405. 12 1 1 
2352. 12 2557. 04 1411. 53 2 各 
14 2297. 28 3340. 14 535. 62 2 
15 2092. 62 3177. 21 584. 32 2 如 
18 2205. 36 3243.74 1202. 69 
19 2949. 16 3244. 44 662. 42 ; 多 
国 2802. 88 3017.11 1984. 98 2 
24 2063. 54 3199. 76 1257. 21 2 2 
1 1739. 94 1675. 15 2395. 96 3 3 
E 1756.77 1652 1514. 98 3 3 
B 1803. 58 1583. 12 2163. 05 3 3 
11 1571.17 1731.04 1735. 33 3 a 
TT 1845. 59 1918. 81 2226. 49 3 3 
20 1692. 62 1867.5 2108. 97 3 3 
21 1680. 67 1575.78 1725.1 3 3 
26 1651. 52 1713. 28 1570. 38 3 3 
2 373.3 3087. 05 2429. 47 4 4 
5 222. 85 3059. 54 2002. 33 4 4 
9 401.3 3259. 94 2150. 98 4 4 
10 363. 34 3477. 95 2462. 86 4 4 
12 104.8 3389. 83 2421. 83 4 4 
13 499.85 3305.75 2196. 22 4 4 
23 i: 3084. 49 2328. 65 4 4 
27 341. 59 3076. 62 2438. 63 4 4 
28 291.02 3095. 68 2088. 95 4 4 
29 237. 63 3077.78 2251. 96 4 4 


训练 后 的 PNN 对 训练 数据 进行 分 类 后 的 结果 与 目标 结果 完全 吻合 ,可 见 PNN 训练 效 
果 良 好 。 
继续 执行 程序 ,可 得 到 待 分 类 样本 的 分 类 结果 : 


二 

1 一 15 列 

:9 时 1 本 之 4 | 2 2 2 2 3 3 3 
于 

16 一 30 列 

3 3 了 或 4 4 4 4 4 4 4 4 4 4 
于 

31 一 45 列 


到 3 4 2 2 3 4 下 学 3 1 2 4 2 


人 


4. RBF 与 PNN 神经 网 络 分 类 器 比较 
RBF 神经 网 络 对 待 分 类 样本 的 分 类 结果 如 下 : 


PNN 神经 网 络 对 待 分 类 样本 的 分 类 结果 如 下 : 


第 6 章 神经 网 络 聚 类 设计 
从 上 面 两 组 数据 可 以 看 出 ,对 于 径 向 基 范 数 神经 网 络 的 分 类 结果 a, 那 些 不 能 确定 具体 
类 别 的 数据 ,概率 神经 网 络 却 给 出 了 明确 的 分 类 结果 。 另 外 ,对 于 同一 组 数据 两 种 分 类 器 得 
出 了 不 同 的 结果 ,但 用 概率 神经 网 络 得 到 的 分 类 结果 与 人 工分 类 结果 相同 ,这 说 明 在 用 径 向 
基 函 数 神经 网 络 分 类 器 进行 分 类 时 ,由 于 函数 本 身 在 数据 分 类 方面 的 缺陷 以 及 人 为 调整 散 
布 常数 等 问题 ,造成 了 最 终 分 类 结果 的 不 准确 。 
径 向 基 神 经 网 络 和 概率 神经 网 络 均 可 以 实现 对 给 定数 据 的 分 类 ,并 且 概 率 神经 网 络 的 
分 类 结果 更 理想 。 这 是 因为 径 向 基 网 络 主要 用 于 函数 的 逼近 ,而 概率 神经 网 络 主要 用 于 解 
决 分 类 问题 ,可 以 弥补 径 向 基 网 络 在 分 类 方面 的 不 足 。 


6.8.5 ”CPN 神经 网 络 分 类 器 的 MATLAB 实现 


1. CPN 的 结构 


对 向 传播 网 络 (counter propagation net, CPN), 是 将 
Kohonen 特征 映射 网 络 与 Grossberg 基本 竞争 型 网 络 相 结合 ， 
发 挥 各 自 特 长 的 一 种 新 型 特征 映射 网 络 。 它 是 美国 计算 机 专 
家 Robert Hecht-Nielsen 于 1987 年 提出 的 。 这 种 网 络 被 广泛 
地 用 于 模式 分 类 、 函 数 近 似 、 统 计 分 析 和 数据 压缩 等 领域 。 
CPN 结构 如 图 6-68 所 示 。 

CPN 分 为 输入 层 、 竞 争 层 和 输出 层 。 输 入 层 与 竞争 层 构 
成 SOM 网 络 ,竞争 层 与 输出 层 构 成 基本 竞争 型 网 络 。 从 整体 
上 看 ,网 络 属于 有 教师 型 的 网 络 ,而 由 输入 层 和 竞争 层 构 成 的 图 6-68 ”CPN 的 结构 
SOM 网 络 又 是 一 种 典型 的 无 教师 型 神经 网 络 。 因 此 ,这 一 网 
络 既 汲取 了 无 教师 型 网 络 分 类 灵活 ,算法 简练 的 优点 ,又 采纳 了 有 教师 型 网 络 分 类 精细 、 准 
确 的 长 处 ,使 两 种 不 同类 型 的 网 络 有 机 地 结合 起 来 。 

CPN 的 基本 思想 是 ,由 输入 层 至 输出 层 , 网 络 按照 SOM 学 习 规则 产生 竞争 层 的 获胜 神 
经 元 ,并 按 这 一 规则 调整 相应 的 输入 层 至 竞争 层 的 连接 权 ; 由 竞争 层 到 输出 层 , 网 络 按照 基 
本 竞争 型 网 络 学 习 规 则 ,得 到 各 输出 神经 元 的 实际 输出 值 ,并 按照 有 教师 型 的 误差 校正 方 
法 ,修正 由 竞争 层 到 输出 层 的 连接 权 。 经 过 这 样 的 反复 学 习 , 可 以 将 任意 的 输入 模式 映射 为 
输出 模式 。 

从 这 一 基本 思想 可 以 发 现 , 处 于 网 络 中 间 位 置 的 竞争 层 获胜 神经 元 使 用 与 其 相关 的 连 
接 权 向 量 , 既 反映 了 输入 模式 的 统计 特性 ,又 反映 了 输出 模式 的 统计 特性 。 因 此 ,可 以 认为 ， 
输入 ,输出 模式 通过 竞争 层 实现 了 相互 映射 , 即 网 络 具 有 双向 记忆 的 功能 。 如 果 输 入 /输出 
采用 相同 的 模式 对 网 络 进行 训练 , 则 由 输入 模式 至 竞争 层 的 映射 可 以 认为 是 对 输入 模式 的 
压缩 ; 而 由 竞争 至 输出 层 的 映射 可 以 认为 是 对 输入 模式 的 复原 。 利 用 这 一 特性 ,可 以 有 效 
地 解决 图 像 处 理 及 通信 中 的 数据 压缩 及 复原 问题 ,并 可 得 到 较 高 的 压缩 比 。 


2. CPN 的 学 习 及 工作 规则 
假定 输入 层 有 NN 个 神经 元 ,p 个 连续 值 的 输入 模式 为 A 二 (af,a$,…,a%h) ,竞争 层 有 


模式 识别 与 人 人工 智能 (基于 MATLAB) 


Q 个 神经 元 ,对 应 的 二 值 输出 向 量 为 Bi 二 (以, 态 ,…, 的 ), 输 出 层 有 M 个 神经 元 ,其 连续 值 
的 输出 向 量 为 C4= (c 信 ,ce4, …，c 千 ) ,目标 输出 向 量 为 Ce 一 (cc ,cx)。 其 中 ,一 1， 
AR 

由 输入 层 至 竞争 层 的 连接 权 向 量 为 Wj 二 (wwwiz，… ,win),j 二 1,2,…,Q; 由 竞争 层 到 
输出 层 的 连接 权 向 量 为 Vi 二 (vn sve，*…… ,viQ),l 二 1,2,*…,M。 

(1) 初始 化 。 将 连接 权 向 量 W; 和 Vi 赋予 区 间 [0,1] 内 的 随机 值 。 将 所 有 的 输入 模式 


A 进行 归 一 化 处 理 ; 性 一 下 和 下 ,其 中 上 4Ae 一 2G)? 二 1,2,p。 
(2) 将 第 个 输入 模式 A 提供 给 网 络 的 输入 层 。 
(3) 将 连接 权 向 量 Wi 按照 下 式 进行 归 一 化 处 理 : wn 二 一, 其 中 wn = 


1 oa 
| Do sj=1,2,°, Qs 
i=1 


Q 
(4) 求 竞争 层 中 每 个 神经 加 权 输 入 和 : 5; 一 >》)atwi，, 其 中 i 二 1,2,…,N。 
j=1 
(5) 求 连接 权 向 量 W; 中 与 A 距离 最 近 的 向 量 Ws: 
N 
Ws = max a foi 一 ,ax Si, 将 神经 元 g 的 输出 设 定 为 1, 其 余 竞争 层 神 经 元 的 
名 隐 


了 一 1,2 必 ， 
ls jg 
输出 设 定 为 0, 即 -1 i 
0, jg 
(6) 将 连接 权 向 量 Ws 按照 下 式 进行 修正 : 
ws (t+1) = w(t) + aLat — ws (t)] (6-94) 


其 中 ;i 二 1,2,…,N; 一 1 过 a<=1, 为 学 习 率 。 
(7) 将 连接 权 向 量 Ws 重新 归 一 化 , 归 一 化 算法 同上 。 
(8) 按照 下 式 修正 竞争 层 到 输出 层 的 连接 权 向 量 V,: 
va(t+1) = wi(t)+Bb(e— ce') (6-95) 
其 中 ,1 二 1,2,…,M; i 二 1,2,…,N; j 二 1,2,…,Q; B 为 学 习 率 。 由 步骤 (5) 可 将 上 式 简 
化 为 


vie (t+1) = vet) +Bbi(c — cel) (6-96) 

由 此 可 见 , 只 需要 调整 竞争 层 获胜 神经 元 g 到 输出 层 神经 元 的 连接 权 向 量 Vs 即 可 ,其 
他 连接 权 向 量 保持 不 变 。 

(9) 求 输出 层 各 神经 元 的 加 权 输 入 ,并 将 其 作为 输出 神经 元 的 实际 输出 值 , c= 
Q 
>)puu ,其 中 ! 一 1,2,…,M。 同 理 可 将 其 简化 为 c= 二 vw。 
Go) 返回 步骤 (2), 直 到 将 户 个 输入 模式 全 部 提供 给 网 络 。 

(11) 令 :一 上 十 1, 将 输入 模式 As 重新 提供 给 网 络 学 习 , 直 到 :一 工 。 其 中 ,T 为 预先 设 定 
的 学 习 总 次 数 ,一 般 取 500 二 T= 二 10000。 

3. CPN 神经 网 络 用 于 模式 分 类 

三 元 色 数据 如 表 1-1 所 示 。 其 中 ,前 29 组 数据 已 确定 类 别 , 后 30 组 数据 待 确定 类 别 。 


其 CPN 神经 网 络 分 类 MATLAB 程序 代码 如 下 : 


运行 上 述 程序 ,系统 给 出 使 用 CPN 神经 网 络 训练 的 分 类 器 对 样本 数据 的 分 类 结果 如 下 : 


将 系统 的 输出 结果 与 目标 结果 对 比 


ee 
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千 果 如 表 6-11 所 示 。 


表 6-11 训练 后 的 CPN 对 训练 数据 进行 分 类 后 的 结果 与 目标 结果 对 比 
岸 屋 A B C 原始 分 类 结果 CPN 分 类 结果 

1 1675. 15 2395. 96 3 3 
2 .05 2429. 47 4 4 
3 3 于 
4 1 1 
5 4 4 
6 1 i 
7 3 3 
8 2 2 
9 4 4 
10 4 4 
11 3 3 
12 4 4 
13 4 4 
14 2 2 
15 2 2 
16 1 1 
7 3 3 
18 2 2 
19 多 

3 3 

入 

4 4 

2 

1 1 
2 28 1570. 3: 3 3 
27 2438, 63 4 4 
28 2088. 95 4 4 
29 1. 96 4 4 


I6)、 模式 识 到 与 人 工 知 能 (基于 MATLAB) 


训练 后 的 CPN 对 训练 数据 进行 分 类 后 的 结果 与 目标 结果 完全 吻合 。 
运行 程序 ,系统 给 出 训练 后 的 CPN 对 待 分 类 样本 的 分 类 结果 如 下 : 
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0000 


下 


多 次 运行 程序 ,程序 对 待 分 类 样本 数据 给 出 分 类 结果 ,如 表 6-12 所 示 
表 6-12 多 次 运行 CPN 对 待 分 类 样本 数据 的 分 类 结果 
次 数 
序 号 

1 2 3 4 5 6 第 8 
1 3 3 3 3 3 3 
2 3 3 3 3 3 3 
3 1 1 4 业 0. 8664 0.1947 
4 3 3 2. 5023 2.7393 3 3 3 
5 4 4 4 4 4 4 4 
6 2 艺 2 艺 和 
站 2 2 2 2 2 2 
8 3 3 3 3 3 1. 9524 
9 4 4 4 4 4 4 
10 0. 9799 3 2. 2689 和 3 1. 9524 
11 3 3 3 3 3 
12 3 2.5023 3 3 3 
13 1 1 VL 加 1 
14 2 2. 2 5 2 2 
15 4 4 4 4 4 4 4 4 
16 2 2 2 2 2 2 2 2 


第 6 章 神经 网 结果 类 设计 8177 


续 表 
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[ee] 
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从 表 6-12 中 可 以 看 出 ,用 CPN 神经 网 络 出 现 数据 不 稳定 主要 是 由 于 CPN 算法 设计 的 
不 完善 所 致 。 但 仔细 观察 序号 为 10 的 数据 的 3 个 特征 值 ,特征 值 A 为 1494. 63, 与 第 三 类 
中 的 序号 为 8 的 数据 的 特征 值 A(1507. 13) 极 其 相近 ,而 且 特 征 值 BB 和 C 与 第 3 类 中 样本 
的 特征 值 也 相差 不 远 , 这 也 是 被 CPN 神经 网 络 误 判 的 一 个 原因 。 

总 之 ,CPN 神经 网 络 在 模式 分 类 上 有 和 较 高 的 准确 率 ,可 以 正确 、 有 效 、 快 速 地 区 分 不 同 
的 特征 点 ,学 习 时 间 较 快 ,学 习 效 率 较 高 。 


习 


(1) 神经 网 络 的 发 展 可 以 分 为 几 个 阶段 ,各 个 阶段 对 神经 网 络 的 发 展 有 何 意义 ? 

(2) 什么 是 人 工 神 经 网 络 ? 

(3) 请 对 照 神经 细胞 的 工作 机 理 , 分 析 人 工 神经 元 基本 模型 的 工作 原理 。 

(4) 简 述 人 工 神 经 网 络 的 工作 过 程 。 

(5) 基于 神经 元 构建 的 人 工 神经 网 络 具有 哪些 特点 ? 

(6) 感知 器 网 络 具有 哪些 特点 ? 

(7) 简 述 BP 网 络 学 习 算 法 的 主要 思想 。 

(8) 简 述 BP 网 络 的 建立 方式 及 执行 过 程 。 

(9) 简 述 离散 Hopfield 网 络 的 工作 方式 及 连接 权 设 计 的 主要 思想 。 

(10) 简 述 径 向 基 函 数 网 络 的 工作 方式 .特点 .作用 及 参数 选择 的 方法 。 

(11) 从 资料 中 得 到 某 地 区 的 12 个 风蚀 数据 ,每 个 样本 数据 用 6 个 指标 表示 其 性 状 ,请 
分 别 用 BP 网 络 、 离 散 Hopfield 网 络 、RBF 网 络 、 自 组 织 竞争 网 络 .SOM 网 络 、.LVQ 网 络 、 
PNN 及 CPN 设计 模式 分 类 系统 。 

原始 数据 如 表 6-13 所 示 。 

表 6-13 某 地 区 风蚀 样本 数据 及 其 性 状 


序 | 风蚀 | 土壤 细 沙 含量 | 沙 地 面积 所 占 比例 | 地 形 起 伏 度 | 风 场 强度 | 2 一 5 月 NDVI | 土壤 干燥 度 
号 | 危险 度 /g /% /em /(km* s!) 平均 值 /% 
1 | 轻 度 0.41 0.00 0.75 0.07 0.67 0.01 
2 | 轻 度 0.41 0.00 0.62 0.14 0.67 0.01 
3 | 中 度 0.68 0.3 (2 0.12 0.41 0.04 
4 | 中 度 .8 0.51 0.01 0. 28 0.55 0.04 
5 | 强度 0.80 0.96 O15 0.05 0.17 0.10 
6 | 强度 0.72 0. 93 0.11 0. 87 0. 18 0.11 
7 | 极 强 0.62 0.91 0.29 0.29 0.05 0.44 
8 | 极 强 0.47 0.79 0.13 0.71 0. 00 1.00 
9 | 轻 度 四 .5 0.00 0. 66 0. 12 0.75 0.02 
10 | 中 度 0.69 0.52 0.57 0. 12 0. 54 0.04 
11 | 强度 0. 63 0. 69 0. 22 0. 19 0. 12 0.11 
12 | 极 强 0.49 0.86 0.18 0.23 0.07 0.25 


注 : NDVI 为 归 一 化 植被 指数 ,无 单位 。 


要 求 使 用 前 8 组 数据 作为 训练 数据 ,后 4 组 数据 作为 测试 数据 。 


模拟 退火 算法 聚 类 设计 


作为 计算 智能 方法 的 一 种 ,模拟 退火 方法 于 20 世纪 80 年 代 初 被 提出 ,其 基本 的 思想 来 
源 于 固体 的 退火 过 程 。1982 年 ,Kirkpatrick 等 人 首先 意识 到 固体 退火 过 程 与 5 优化 问题 之 问 
La 等 人 对 固体 在 恒定 温度 下 达到 热平衡 过 程 的 模拟 也 给 他 们 以 启 
迪 。 通 过 把 Metropolis 准则 引入 到 优化 过 程 中 来 ,最 终 他 们 得 到 一 种 对 Metropolis 算法 进 
er 这 种 算法 类 似 固体 退火 过 程 , 故 称 为 “模拟 退火 算法 ”。 


模拟 退火 算法 简介 


模拟 退火 算法 是 一 种 适合 求解 大 规模 组 合 优化 问题 的 随机 搜索 算法 。 目 前 ,模拟 退火 
算法 在 求解 TSP、VLSI 电路 设计 等 组 合 优化 问题 上 取得 了 令 人 满意 的 结果 。 由 于 模拟 退 
火 算法 具有 适用 范围 广 , 求 得 全 局 最 优 解 的 可 靠 性 高 .算法 简单 .便于 实现 等 优点 ,在 应 用 于 
求解 连续 变量 函数 的 全 局 优化 问题 上 得 到 了 广泛 的 研究 ,同时 取得 了 很 好 的 效果 。 但 是 ,为 
了 提高 模拟 退火 算法 的 搜索 效率 ,国内 外 的 科研 人 员 还 在 进行 各 种 研究 工作 ,并 尝试 从 模拟 
退火 算法 的 不 同 阶段 入 手 对 算法 进行 改进 。 同 时 ,将 模拟 退火 算法 同 其 他 的 计算 智能 方法 
相 结 合 ,应 用 到 各 类 复杂 系统 的 建 模 和 优化 问题 中 也 得 到 了 越 来 越 多 的 重视 ,已 经 逐渐 成 为 

一 个 重要 的 发 展 方向 。 


7.1.1 物理 退火 过 程 


模拟 退火 算法 得 益 于 材料 的 统计 力学 的 研究 成 果 。 统 计 力 学 表明 材料 中 粒子 的 不 同 结 
构 对 应 于 粒子 的 不 同 能 量 水 平 。 在 高 温 条 件 下 , 粒 、 二 = 
子 的 能 量 较 高 ,可 以 自由 运动 和 重新 排序 。 在 低温 外 
Xs | lL 
图 7-1 物理 退火 过 程 


条 件 下 ,粒子 能 量 较 低 。 物 理 退 火 过 程 如 图 7-1 所 KE 
示 ,整个 过 程 由 三 部 分 组 成 。 本 


1. 升温 过 程 
升温 的 目的 是 增强 物体 中 粒子 的 热 运动 ,使 其 偏离 平衡 位 置 成 为 无 序 状 态 。 当 温度 足 


够 高 时 ,固体 将 溶解 为 液体 ,从 而 消除 系统 原先 可 能 存在 的 非 均 匀 态 ,使 随后 的 冷却 过 程 以 
某 一 平衡 态 为 起 点 。 升 温 过 程 与 系统 的 焙 增 过 程 相关 ,系统 能 量 随 温度 的 升 高 而 增 大 。 


2. 等 温 过 程 


在 物理 学 中 ,对 于 与 周围 环境 交换 热量 而 温度 不 变 的 封闭 系统 ,系统 状态 的 自发 变化 总 
是 朝向 自由 能 减 小 的 方向 进行 。 当 自由 能 达到 最 小 时 ,系统 达到 平衡 态 。 


3. 冷却 过 程 


与 升温 过 程 相反 ,使 物体 中 粒子 的 热 运动 减弱 并 渐 趋 有 序 ,系统 能 量 随 温度 降低 而 下 
降 , 得 到 低能 量 的 晶体 结构 。 


7.1.2 Metropolis 准则 


固体 在 恒定 的 温度 下 达到 热平衡 的 过 程 可 以 用 Monte Carlo 方法 进行 模拟 。Monte 
Carlo 方法 的 特点 是 算法 简单 ,但 必须 大 量 采样 才能 得 到 比较 精确 的 结果 ,因而 计算 量 很 大 。 

1953 年 ,Metropolis 等 人 提出 了 一 种 重要 的 采样 法 。 他 们 用 下 述 方法 产生 固体 的 状态 序列 ， 

先 给 定 以 粒子 相对 位 置 表征 的 初始 状态 i, 作 为 固体 的 当前 状态 ,该 状态 的 能 量 是 已 ,。 
然后 用 摄 动 装置 使 随机 选取 的 某 个 粒子 的 位 移 随机 地 产生 一 微小 变化 ,得 到 一 个 新 状态 j， 
新 状态 的 能 量 是 E;。 如 果 EE 三 Ei, 则 该 新 状态 就 作为 “重要 ”状态 ; 如 果 巨 二 Ei, 则 要 考虑 
到 热 运动 的 影响 。 该 新 状态 是 否 为 “重要 ”状态 ,要 依据 固体 处 于 该 状态 的 概率 ,由 p = 


寺 蔚 ) 式 来 判断 , 式 中 4 为 物理 学 中 的 玻 耳 效 曼 常数 ;了 为 材料 的 热力 学 温度 。 


pp 是 一 个 小 于 1 的 数 。 用 随机 数 发 生 器 产生 一 个 [0,1) 区 间 的 随机 数 &, 车 p 二 &, 则 新 
状态 作为 重要 状态 ,否则 舍弃 。 若 新 状态 j 是 重要 状态 ,就 以 j 取代 i 成 为 当前 状态 ,否则 
仍 以 i 为 当前 状态 。 青 重复 以 上 新 状态 的 产生 过 程 。 

由 者 一 exp (Fe) 可 知 , 高 温 下 可 接受 与 当前 状态 能 差 较 大 的 新 状态 为 重要 状态 ， 
而 在 低温 下 只 能 接受 与 当前 状态 能 差 较 小 的 新 状态 为 重要 状态 。 这 与 不 同 温度 下 热 运 动 的 
影响 完全 一 致 。 在 温度 趋 于 0C 时 ,就 不 能 接受 任 一 FE; 二 E; 的 新 状态 j 了。 


已 


exp 


7.1.3 模拟 退火 算法 的 基本 原理 


模拟 退火 算法 来 源 于 固体 退火 原理 ,将 固体 加 温 至 充分 高 ,再 让 其 徐徐 冷却 。 加 温 时 ， 
国体 内 部 粒子 随 温 升 变 为 无 序 状 ,内 能 增 大 ,而 徐徐 冷却 时 粒子 渐 趋 有 序 ,在 每 个 温度 都 达 
到 平衡 态 , 最 后 在 常温 时 达到 基态 ,内 能 减 为 最 小 。 

根据 Metropolis 准则 ,粒子 在 温度 T 时 趋 于 平衡 的 概率 为 exp[ 一 AE/(kT)]。 其 中 ， 
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下 为 温度 工时 的 内 能 ; AE 为 其 改变 量 ;为 玻 耳 兹 曼 常 数 。 用 固体 退火 模拟 组 合 优 化 问 
题 ,将 内 能 巨 模拟 为 目标 函数 值 ,温度 演化 成 控制 参数 1, 即 得 到 解 组 合 优 化 问题 的 模 
拟 退 火 算法 : 由 初始 解 和 控制 参数 初 值 开始 ,对 当前 解 重复 “产生 新 解 一 计算 目标 函数 
差 习 接受 或 舍弃 ”的 迭代 ,并 逐步 衰减 + 值 ,算法 终止 时 的 当前 解 即 为 所 得 近似 最 优 解 , 这 是 
基于 蒙特 卡 罗 迭 代 求 解法 的 一 种 启发 式 随机 搜索 过 程 。 

退火 过 程 由 冷却 进度 表 (cooling schedule) 控 制 ,包括 控制 参数 的 初 值 t 及 其 衰减 因子 
At\ 每 个 t 值 时 的 迭代 次 数 L 和 停止 条 件 S。 

模拟 退火 与 组 合 优化 算法 具有 相似 性 ,如 表 7-1 所 示 。 


表 7-1 组 合 优化 与 模拟 退火 的 相似 性 


组 合 优化 模拟 退火 
解 粒子 状态 
最 优 解 能 量 最 低 态 
目标 函数 能 量 
设 定 温度 溶解 工程 
Metropolis 抽样 过 程 等 温 过 程 
控制 参数 的 下 降 冷却 


7.1.4 模拟 退火 算法 的 组 成 


模拟 退火 算法 由 解 空间 、 目 标 函数 和 初始 解 组 成 。 

(1) 解 空间 : 对 所 有 可 能 解 均 为 可 行 解 的 问题 定义 为 可 能 解 的 集合 ,对 存在 不 可 行 解 
的 问题 ,或 限定 解 空间 为 所 有 可 行 解 的 集合 ,或 允许 包含 不 可 行 解 但 在 目标 函数 中 用 罚 函 数 
惩罚 以 致 最 终 完全 排除 不 可 行 解 。 

(2) 目标 函数 : 对 优化 目标 的 量化 描述 ,是 解 空 间 到 某 个 数 集 的 一 个 映射 ,通常 表示 为 
若干 优化 目标 的 一 个 和 式 ,应 正确 体现 问题 的 整体 优化 要 求 且 较 易 计 算 。 当 解 空 间 包含 不 
可 行 解 时 还 应 包括 罚 函数 项 。 

(3) 初始 解 : 是 算法 迭代 的 起 点 。 试 验 表 明 .模拟 退火 算法 是 健壮 的 , 即 最 终 解 的 求 得 
不 十 分 依赖 初始 解 的 选取 ,从 而 可 任意 选取 一 个 初始 解 。 


7.1.5 模拟 退火 算法 新 解 的 产生 和 接受 


模拟 退火 算法 新 解 的 产生 和 接受 可 分 为 以 下 四 个 步骤 。 

(1) 由 一 个 产生 函数 从 当前 解 产 生 一 个 位 于 解 空间 的 新 解 。 为 便于 后 续 的 计算 和 接 
受 ,减少 算法 耗 时 。 通 常 选 择 由 当前 新 解 经 过 简单 变换 即 可 产生 新 解 的 方法 ,如 对 构成 新 解 
的 全 部 或 部 分 元 素 进行 置换 、 互 换 等 。 产 生 新 解 的 变换 方法 决定 了 当前 新 解 的 邻 域 结构 , 因 
而 对 冷却 进度 表 的 选取 有 一 定 的 影响 。 

(2) 计算 与 新 解 所 对 应 的 目标 函数 差 。 因 为 目标 函数 差 仅 由 变换 部 分 产生 ,所 以 目标 函数 
差 的 计算 最 好 按 增 量 计算 。 事 实 表明 ,对 大 多 数 应 用 而 言 .这 是 计算 目标 函数 差 的 最 快 方法 。 


模式 识别 与 人 工 智能 (基于 MATLAB) 


(3) 判断 新 解 是 否 被 接受 。 判 断 的 依据 是 一 个 接受 准则 ,最 常用 的 接受 准则 是 
Metropolis 准则 : 车 At 一 0, 则 接受 S 作为 新 的 当前 解 S; 否则 ,以 概率 exp( 一 At'/T) 接 受 
S' 作 为 新 的 当前 解 S。 

(4) 当 新 解 被 确定 接受 时 ,用 新 解 代替 当前 解 ,这 只 需 将 当前 解 中 对 应 于 产生 新 解 时 的 
变换 部 分 予以 实现 ,同时 修正 目标 函数 值 即 可 。 此 时 ,当前 解 实现 了 一 次 迭代 。 可 在 此 基础 
上 开始 下 一 轮 试验 。 当 新 解 被 判定 为 舍弃 时 , 则 在 原 当 前 解 的 基础 上 继续 下 一 轮 试验 。 


7.1.6 模拟 退火 算法 的 基本 过 程 


(1) 初始 化 ,给 定 初始 温度 Te 及 初始 解 ww, 计算 解 对 应 的 目标 函数 值 1(w)。 在 本 节 中 
w 代表 一 种 聚 类 划分 。 

(2) 模型 扰动 产生 新 解 w 及 对 应 的 目标 函数 值 fw)。 

(3) 计算 函数 差 值 Af = fCw) 一 f(w)。 

(4) 如 果 Af 过 0, 则 接受 新 解 作为 当前 解 。 

(5) 如 果 Af 二 0, 则 以 概率 p 接受 新 解 。 

p= EU AKT) Pe 

(6) 对 当前 工 值 降温 ,对 步骤 (2) 一 (5) 友 代 N 次 。 

(7) 如 果 满 足 终 止 条 件 ,输出 当前 解 为 最 优 解 ,结束 算法 ; 否则 ,降低 温度 ,继续 迭代 。 

模拟 退火 算法 的 流程 如 图 7-2 所 示 。 算 法 中 包含 一 个 内 循环 和 一 个 外 循环 。 内 循环 就 
是 在 同一 温度 下 的 多 次 扰动 产生 不 同 模型 状态 ,并 按照 Metropolis 准则 接受 新 模型 ,因此 
是 用 模型 扰动 次 数控 制 的 ; 外 循环 包括 了 温度 下 降 的 模拟 退火 算法 的 迭代 次 数 的 递增 和 算 
法 停止 的 条 件 ,因此 基本 是 用 迭代 次 数控 制 的 。 


7.1.7 模拟 退火 算法 的 参数 控制 问题 

模拟 退火 算法 的 应 用 很 广泛 ,可 以 求解 NP 完全 问题 ,但 其 参数 难以 控制 ,主要 存在 以 
下 三 个 问题 ， 

1. 温度 工 的 初始 值 设 置 问题 

温度 工 的 初始 值 设置 是 影响 模拟 退火 算法 全 局 搜索 性 能 的 重要 因素 之 一 。 初 始 温度 
高 , 则 搜索 到 全 局 最 优 解 的 可 能 性 大 ,但 因此 要 花费 大 量 的 计算 时 间 ; 反之 , 则 可 节省 计算 
时 间 , 但 全 局 搜索 性 能 可 能 受到 影响 。 实 际 应 用 过 程 中 ,初始 温度 一 般 需要 依据 实验 结果 进 
行 若 干 次 调整 。 

2. 退火 速度 问题 

模拟 退火 算法 的 全 局 搜索 性 能 也 与 退火 速度 密切 相关 。 一 般 来 说 ,同一 温度 下 的 “ 充 
分 "搜索 (退火 ) 是 相当 必要 的 ,但 这 需要 计算 时 间 。 实 际 应 用 中 ,要 针对 具体 问题 的 性 质 和 
特征 设置 合理 的 退火 平衡 条 件 。 

3. 温度 管理 问题 

温度 管理 问题 也 是 模拟 退火 算法 难以 处 理 的 问题 之 一 。 实 际 应 用 中 ,由 于 必须 考虑 计 
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随机 生成 初始 解 w 
计算 目标 函数 fw) 


1 


扰动 产生 新 解 w' 
计算 目标 函数 ftw') 


按 Metropolis 准 则 
接受 新 解 
J 


满足 终止 条 件 ? 


Y 
运算 结束 ， 返 回 最 优 解 


图 7-2 模拟 退火 算法 流程 图 


算 复 杂 度 的 切实 可 行 性 等 问题 , 常 采 用 降温 方式 T(t 十 1) 二 kXT(z)。 式 中 ,为 正 的 略 小 
于 1.00 的 常数 ; t 为 降温 的 次 数 。 


基于 模拟 退火 思想 的 聚 类 算法 


7.2.1 X 均值 算法 的 局 限 性 


基本 的 天 均值 算法 目的 是 找到 使 目标 函数 值 最 小 的 K 个 划分 ,算法 思想 简单 , 易 实 
现 ,而 且 收敛 速度 较 快 。 如 果 各 个 篮 之 间 区 别 明显 , 且 数 据 分 布 稠密 , 则 该 算法 比较 有 效 , 但 
如 果 各 个 簇 的 形状 和 大 小 差别 不 大 , 则 可 能 会 出 现 较 大 的 簇 分 割 现 象 。 此 外 ,在 K 均值 算 
法 聚 类 时 ,最 佳 聚 类 结果 通常 对 应 于 目标 函数 的 极 值 点 ,由 于 目标 函数 可 能 存在 很 多 的 局 部 
极 小 值 点 ,这 就 会 导致 算法 在 局 部 极 小 值 点 处 收 么 。 因 此 ,初始 聚 类 中 心 的 随机 选取 可 能 会 


使 解 陷 入 局 部 最 优 解 ,难以 获得 全 局 最 优 解 。 
该 算法 的 局 限 性 主要 表现 在 以 下 方面 。 
(1) 最 终 的 聚 类 结果 依赖 于 最 初 的 划分 。 
(2) 需要 事先 指定 聚 类 的 数目 M。 
(3) 产生 的 类 大 小 相关 较 大 ,对 于 噪声 和 孤立 点 敏感 。 
(4) 算法 经 常 陷入 局 部 最 优 。 
(5) 不 适合 对 非 凸 面 形状 的 簇 或 差别 很 小 的 簇 进 行 聚 类 。 


7.2.2 基于 模拟 退火 思想 的 改进 K 均值 聚 类 算法 


模拟 退火 算法 是 一 种 启发 式 随机 搜索 算法 ,具有 并 行 性 和 渐 近 收敛 性 ,已 在 理论 上 证 明 
它 是 一 种 以 概率 为 1 ,收敛 于 全 局 最 优 解 的 全 局 优化 算法 ,因此 用 模拟 退火 算法 对 开 均值 聚 
类 算法 进行 优化 ,可 以 改进 K 均值 聚 类 算法 的 局 限 性 ,提高 算法 性 能 。 

基于 模拟 退火 思想 的 改进 开 均值 聚 类 算法 中 ,将 内 能 巨 模拟 为 目标 函数 值 , 将 基本 K 
均值 聚 类 算法 的 聚 类 结果 作为 初始 解 , 初 始 目标 函数 值 作为 初始 温度 Tu, 对 当前 解 重复 " 产 
生 新 解 一 计算 目标 函数 差 一 接受 或 舍弃 新 解 ”的 迭代 过 程 ,并 逐步 降低 工 值 ,算法 终止 时 当 
前 解 为 近似 最 优 解 。 这 种 算法 开始 时 以 较 快 的 速度 找到 相对 较 优 的 区 域 , 然 后 进行 更 精确 
的 搜索 ,最 终 找到 全 局 最 优 解 。 


7.2.3 几 个 重要 参数 的 选择 


1. 目标 函数 
选择 当前 聚 类 划分 的 总 类 间 离 散 度 作为 目标 函数 


和 三 (7-2) 


i=1 XEw, 
式 中 ,XX 为 样本 向 量 ; zw 为 聚 类 划分 ; X… 为 第 i 个 聚 类 的 中 心 ; dCX,X ) 为 样本 到 对 应 
聚 类 中 心 的 距离 ; 聚 类 准则 函数 J。 即 为 各 类 样本 到 对 应 聚 类 中 心 距离 的 总 和 。 

2. 初始 温度 

一 般 情 况 下 ,为 了 使 最 初 产生 的 新 解 被 接受 ,在 算法 开始 时 就 应 达到 准 平衡 ,因此 选取 
初始 温度 聚 类 结果 To = Ju 作为 初始 解 。 

3. 扰动 方法 

模拟 退火 算法 中 的 新 解 的 产生 是 对 当前 解 进行 扰动 得 到 的 。 本 算法 采用 一 种 随机 扰动 
方法 , 即 随机 改变 一 个 聚 类 样本 的 当前 所 属 类 别 , 从 而 产生 一 种 新 的 聚 类 划分 ,使 算法 有 可 
能 跳出 局 部 极 小 值 。 

4. 退火 方式 


模拟 退火 算法 中 ,退火 方式 对 算法 有 很 大 的 影响 。 如 果 温 度 下 降 过 慢 , 算 法 的 收敛 速度 


0 
会 大 大 降低 。 如 果 温度 下 降 过 快 , 可 能 会 丢失 极 值 点 。 为 了 提高 模拟 退火 算法 的 性 能 ,许多 
学 者 提出 了 退火 方式 ,比较 有 代表 性 的 退火 方式 如 下 : (下面 公式 中 4 代表 最 外 层 当前 循环 
次 数 ,a 为 可 调 参 数 ,可 以 改善 退火 明 线 的 形态 。) 


-区 
0 人 
其 特点 是 温度 下 降 缓慢 ,算法 收敛 速度 也 较 慢 。 
To 
TO — i 


a 为 可 调 参 数 ,可 以 改善 退火 曲线 的 形态 。 其 特点 是 高 温 区 温度 下 降 较 快 ,低温 区 温度 
下 降 较 慢 , 即 主 要 在 低温 区 进行 寻 优 。 
TO) = Toa' (7-5) 
a 为 可 调 参 数 ,其 特点 是 温度 下 降 较 快 ,算法 收敛 速度 快 。 本 算法 采用 此 退火 方式 ,其 
中 a 为 退火 速度 ,控制 温度 下 降 的 快慢 , 取 a 一 0.99。 


算法 实现 


7.3.1 实现 步 又 


基于 模拟 退火 思想 的 K 均值 聚 类 算法 流程 如 图 7-3 所 示 。 

如 图 7-3 所 示 ,算法 中 包含 一 个 内 循环 和 一 个 外 循环 。 内 循环 就 是 在 同一 温度 下 的 多 
次 扰动 产生 不 同 模型 状态 ,并 按照 Metropolis 准则 接受 新 模型 ,因此 是 用 模型 扰动 次 数控 
制 的 ; 外 循环 包括 了 温度 下 降 的 模拟 退火 算法 的 迭代 次 数 的 递增 和 算法 停止 的 条 件 , 因 此 
基本 是 用 迭代 次 数控 制 的 。 


(1) 对 样本 进行 K 均值 聚 类 ,将 聚 类 划分 结果 作为 初始 解 m, 根据 J。 二 >) > )dCX,Xe ) 


i=l XEw, 

计算 目标 函数 值 J。。 

(2) 初始 化 温度 Tu, 令 To 二 Ju, 初始 化 退火 速度 a 和 最 大 退火 次 数 。 

(3) 对 于 某 一 温度 上 在 步骤 (4) 一 (7) 进 行 迭 代 , 直 到 达到 最 大 迭代 次 数 , 跳 到 步骤 (8)。 

(4) 随机 扰动 产生 新 的 聚 类 划分 w', 即 随机 改变 一 个 聚 类 样本 的 当前 所 属 类 别 , 计 算 
新 的 目标 函数 值 1。 

(5) 判断 新 的 目标 函数 值 J% 是否 为 最 优 目 标 函数 值 ,是 则 保存 聚 类 划分 w 为 最 优 聚 
类 划分 、J 为 最 优 目标 函数 值 ; 否则 跳 到 下 一 步 。 

(6) 计算 函数 差 值 AJ = J< 一 J。。 

(7) 判断 AJ 是 否 小 于 0: 

车 AJ 三 0, 则 接受 新 解 ,即将 新 解 作为 当前 解 。 

若 AJ > 0, 则 根据 Metropolis 准则 接受 新 解 。 

(8) 判断 是 否 达 到 最 大 退火 次 数 , 是 则 结束 算法 ,输出 最 优 聚 类 划分 ; 否则 降低 温度 ， 


确定 初始 解 w 
计算 目标 函数 人 


| 


确定 初始 温度 元 
降温 速度 a 


扰动 产生 新 解 w 
计算 目标 函数 Aw') 


基 受 新 解 
w=w', =) 


按 Metropolis 
准则 接受 新 解 


缓慢 降低 温度 
重 置 达 代 次 数 


运算 结束 返 
回 最 优 解 


图 7-3 基于 模拟 退火 思想 的 均值 聚 类 算法 流程 


7.3.2 模拟 退火 实现 模式 分 类 的 MATLAB 程序 
1， 初始 化 程序 
序 首 先 需 要 输入 样本 数目 、 待 分 类 的 数目 、 初 始 分 类 及 其 他 的 一 些 相 关 参 数 。 初 始 化 
序 代码 如 下 : 
[num,n] = size(p); 名 样本 数目 
centernum = 4; 名 类 别 数 目 
IDXO=[1234444444444444444444444444444444444444444444444 
4444444444]; % 设置 样本 的 初始 分 类 
time=1; 
Tbegin = 10;Tover = 0.1; 名 起 始 温 度 ,终止 温度 
L=500; % 内 层 循环 次 数 
T= Tbegin; 名 初始 化 温度 参数 


timeb= 0; 


名 最 优 卓 标 首次 出 现 的 退火 次 数 
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2. 求 初始 聚 类 中 心 


其 程序 代码 如 下 : 
s4 = find( IDXO == 4); 名 聚 类 号 为 4 的 样本 在 p 中 的 序号 
s44=p(s4, :); 多 全 部 为 4 类 的 样本 和 矩阵 


CO(4,:) = [sum(s44(:,1))/48, sum(s44(:,2))/48, sum(s44(:,3))/48];% 第 4 类 的 中 心 
JO=07 
jl=07 32=0; 13=07 1 0 
for i=1:num 
if IDXO(i) == 4 
j4=j4+sqrt((p(i,1) = CO(1,1))*2+ (p(i,2)— CO(1,2))*2+ (p(i,3) -Co(1,3))"2); 


end 
end 
J0=j1+j2+j3+j4; 名 4 种 类 别 的 类 内 所 有 点 与 该 类 中 心 的 距离 和 
3. 产生 随机 扰动 
产生 随机 扰动 的 程序 代码 如 下 : 
产生 随机 扰动 , 即 随机 改变 一 个 聚 类 样本 的 当前 所 属 类 别 
tl = fix(randx num+ 1); 随机 抽取 一 个 样本 
t2 = fix(randx (centernum— 1) +1); 多 随机 生成 1 一 3 的 整数 


if(IDXN(t1) +t2 > centernum) 

IDXN(t1) = IDXN(t1) + t2 — centernum; 
else 

IDXN(t1) = IDXN(t1) + t2; 
end 


4. 重新 计算 聚 类 中 心 
重新 计算 聚 类 中 心 的 程序 代码 如 下 : 


pl = find( IDXN == 1); 名 聚 类 号 为 1 的 样本 在 p 中 的 序号 
pll=p(pl,:); 名 全 部 为 1 类 的 样本 矩阵 

[bl,al] = size(p1); 

CN(1, :) = [sum(pl1(:,1))/al, sum(pl1(:,2))/al, sum(pl1(:,3))/al]; 名 第 一 类 的 中 心 

p2 = find( IDXN == 2); 名 聚 类 号 为 2 的 样本 在 p 中 的 序号 
p22 =p(p2, :); 名 全 部 为 2 类 的 样本 和 矩阵 

[b2,a2] = size( p2); 

CN(2, :) = [sum(p22(:,1))/a2, sum(p22(:,2))/a2, sum(p22(:,3))/a2]; 名 第 2 类 的 中 心 

p3 = find( IDXN == 3); 名 聚 类 号 为 3 的 样本 在 p 中 的 序号 
p33=p(p3,:); s# 全 部 为 3 类 的 样本 矩阵 

[b3,a3] = size(p3) 7 

CN(3, :) = [sum(p33(:,1))/a3, sum(p33(:,2))/a3, sum(p33(:,3))/a3]; 名 第 3 类 的 中 心 

p4 = find( IDXN == 4); 名 聚 类 号 为 4 的 样本 在 p 中 的 序号 
p44 =p(p4, :); 名 全 部 为 4 类 的 样本 和 矩阵 


模式 识别 与 人 工 智能 (基于 MATLAB) 


[b4,a4] = size(p4); 
CN(4, :) = [sum(p44(:,1))/a4, sum(p44(:,2))/a4, sum(p44(:,3))/a4]; 久 第 4 类 的 中 心 


5. 计算 目标 函数 
计算 目标 函数 的 程序 代码 如 下 : 


JN=0; 
j1=0; j2=0; j3=0; j4=0; 
for i=1:num 
if IDXN(i) ==1 
j1=jl+sqrt((p(i,1) -CN(1,1))*2+ (p(i,2) ~ CN(1,2))*2+ (p(i,3) — CN(1,3))"2); 
elseif IDXN(i) == 
j2= 32+sgrt((p(i, 1)=CH(2,1))"2 + (p(3,2)— CH(2,2))*2+ (Bp(3,3) = CH(2,3))°2); 
elseif IDXN(i) ==3 
13= 3+art((p(D 1)=CH(3,1))*2+ (p(i,2)=CH(3.2))*2+ (p(13) = CH(3;3))"2) 
elseif IDXN(i) == 4 
j4=j4+sqrt((p(i,1) ~ CN(4,1))*2+ (p(i,2) -CN(4,2))*2+ (p(i,3)— CN(4,3))"2); 


end 
end 
JN= 让 +j2+j3+j4; 名 四 种 类 别 的 类 内 所 有 点 与 该 类 中 心 的 距离 和 
e= J- J0; 


6. 判断 是 否 接受 新 解 
判断 是 否 接受 新 解 的 程序 代码 如 下 : 


if e<=0 
JO= JN;CO = CN; IDXO = IDXN; 
else 
if(rand<exp( - e/T)) 
JO=JN; 
CO=CN; 
IDXO = IDXN; 
else 
IDXN = IDXO; IDX = IDXO;CN = CO;JN = JO; 
end 
end 


模拟 退火 实现 模式 分 类 的 MATLAB 完整 程序 代码 如 下 : 


% cle; 

close all;clear all; 

p=[1739.94 1675.15 2395.96 
Ei 3087.05 2429.47 
1756.77 1652 1514.98 
864.45 1647.31 2665.9 


222.85 3059.54 2002.33 
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877.88 2031. 66 3071.18 
1803.58 1583.12 2163.05 
2352.12 2557.04 1411.53 
401.3 3259.94 2150.98 
363.34 3477.95 2462.86 
1571.17 1731.04 1735.33 
104.8 3389.83 2421.83 
499.85 3305.75 2196.22 
2297.28 3340.14 535.62 
2092.62 3177:2L 584.32 
1418.79 1775.89 277259 
1845.59 1918.81 2226.49 
2205.36 3243.74 1202.69 
2949.16 3244.44 662.42 
1692.62 1867.5 2108.97 
1680.67 1575.78 2255 二 
2802.88 3017:11 1984.98 
172.78 3084.49 2328.65 
2063.54 3199.76 1257.21 
1449.58 1641.58 3405.12 
1651.52 1713.28 1570.38 
341.59 3076.62 2438.63 
291.02 3095.68 2088.95 
237.63 3077.78 2251.96 
1702.8 1639.79 2068.74 
1877.93 1860.96 1975:3 
867.81 2334.68 2535.1 
1831. 49 出 713sTL 1604.68 
460.69 3274.77 2172.99 
2374.98 3346.98 975:31 
2271.89 3482.97 946.7 
1783.64 1597.99 2261.31 
198.83 3250.45 2445.08 
1494.63 2072.59 2550.51 
1597.03 1921.52 2126.76 
1598.93 1921.08 1623.33 
1243.13 1814.07 3441.07 
2336.31 2640.26 1599.63 
354 3300.12 2373.61 
2144.47 2501.62 59T5. 
426.31 3105.29 2057.8 
1507.13 1556.89 1954.51 
343.07 3271.72 2036.94 
2201.94 3196.22 935.53 
2232.43 3077.87 1298.87 
1580.1 1752.07 2463.04 
1962.4 1594.97 1835.95 
1495.18 1957.44 3498. 02 
1125.17 1594.39 2937.73 
24.22 3447.31 2145.01 
1269.07 1910.72 2701.97 
1802.07 1725.81 1966.35 
1817.36 1927.4 2328.79 
1860.45 1782.88 1875.13 


J]; 


[num,n] = size(p); 名 样本 数目 
centernum = 4; 多 类 别 数目 
IDXO=[1234444444444444444444444444444444444444444444444 
4444444444]; 
第 size(IDXO) 
Co(1,:) = [1739.94 1675.15 2395.96]; 
Co(2,:) = [373.3 3087.05 2429.47]; 
co(3,:) = [1756.77 1652 1514.98]; 


外 sl = find(IDXO==1); 外 聚 类 号 为 1 的 样本 在 p 中 的 序号 
% sll=p(sl,:) 

s4= find(IDXO== 4); 名 聚 类 号 为 4 的 样本 在 p 中 的 序号 
s44=p(s4,:); 多 全 部 为 4 类 的 样本 和 矩阵 


CO(4, :) = [sum(s44(:,1))/59, sum(s44(:,2))/59, sum(s44(:,3))/59]; 第 4 类 的 中 心 
J0O= 0; 
=0;j2=0;j3=0; 4=0; 
for i=1:num 
if IDXO(i) == 4 
j4=j4+sqrt((p(i,1)— CO(1,1))*2+ (p(i,2) -CO(1,2))*2+ (p(i,3) - CoO(1,3))*2); 


end 
end 
J0= jl1+j2+j3+j4; % 四 种 类 别 的 类 内 所 有 点 与 该 类 中 心 的 距离 和 
J0 
C= C0;J = JO;IDX = IDXO; 
time=1; 
Tbegin= 10;Tover = 0.1; 多 起 始 温度 ,终止 温度 
L= 300; 内 层 循环 次 数 
T= Tbegin; 名 初始 化 温度 参数 
timeb = 0; 最 优 目 标 首次 出 现 的 退火 次 数 
% K=0.0001; 
tic; 
IDXN = IDXO; 
while T>Tover 
tes=0 


for inner =1:L 
产生 随机 扰动 , 即 随机 改变 一 个 聚 类 样本 的 当前 所 属 类 别 
tl = fix(randx num+ 1); # 随机 抽取 一 个 样本 
t2 = fix(randx (centernum— 1) +1); # 随机 生成 1 一 3 的 整数 
if(IDXN(t1) +t2 > centernum) 
IDXN(t1) = IDXN(t1) + t2 - centernum; 


else 
IDXN(t1) = IDXN(t1) + t2; 
end 
tl = fix(randx (num— 1) +1); 名 随机 抽取 一 个 样本 


t2 = fix(randx (centernum— 1)+1); 名 随机 生成 1 一 4 的 整数 
if(IDXN(t1) +t2 > centernum) 
IDXN(t1) = IDXN(t1) + t2 - centernum; 
else 
IDXN(t1) = IDXN(t1) + t2; 
end 


0 0 0 
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IDXN(t1) = t2; 
IDXN; 
名 重新 计算 聚 类 中 心 
pl = find(IDXN == 1); 名 聚 类 号 为 1 的 样本 在 p 中 的 序号 
pll=p(pl,:); 多 全 部 为 1 类 的 样本 和 矩阵 


[bl,al] = size(p1); 
CN(1, :) = [sum(p11(:,1))/al, sum(p11(:,2))/al, sum(pl1(:,3))/al];% 第 一 类 的 中 心 
p2 = find( IDXN == 2); 和 聚 类 号 为 2 的 样本 在 p 中 的 序号 
p22=p(p2, :); 名 全 部 为 2 类 的 样本 和 矩阵 
[b2,a2] = size(p2); 
CN(2, :) = [sum(p22(:,1))/a2, sum(p22(:,2))/a2, sum(p22(:,3))/a2]; 第 2 类 的 中 心 
p3= find( IDXN == 3); 名 聚 类 号 为 3 的 样本 在 p 中 的 序号 
p33 =p(p3, :); 名 全 部 为 3 类 的 样本 矩阵 
[b3,a3] = size(p3); 
CN(3, :) = [sum(p33(:,1))/a3, sum(p33(:,2))/a3, sum(p33(:,3))/a3];% 第 3 类 的 中 心 
p4 = find(IDXN== 4); 外 聚 类 号 为 4 的 样本 在 p 中 的 序号 
p44 =p(p4, :); 全 部 为 4 类 的 样本 和 矩阵 
[b4,a4] = size(p4); 
CN(4, :) = [sum(p44(:,1))Va4, sum(p44(:,2))/a4, sum(p44(:,3))Va4];% 第 4 类 的 中 心 
计算 目标 函数 
JN=0; 
j=0; j= 0 04= 0 
for i=1:num 
if IDXN(i) == 1 
j1=j1l+sqrt((p(i,1)— CN(1,1))*2+(p(i,2)— CN(1,2))*2+ (p(i,3)— CN(1,3))*2); 
elseif IDXN(i) == 2 
j2=j2+sqrt((p(i,1)— CN(2,1))°2 + (p(i,2)— CN(2,2))°2+ (p(i,3)— CN(2,3))"2); 
elseif IDXN(i)== 
j3=j3+sqrt((p(i,1)— CN(3,1))*2+(p(i,2)— CN(3,2))*2+ (p(i,3)— CN(3,3))"2); 
elseif IDXN(i) == 4 
j4=j4+sqrt((p(i,1)— CN(4,1))*2+(p(i,2)— CN(4,2))*2+ (p(i,3)— CN(4,3))"2); 
end 
end 
JN= jl1+j2+j3+j4; 名 四 种 类 别 的 类 内 所 有 点 与 该 类 中 心 的 距离 和 
e=JN-JO; 
名 判断 是 否 接 受 新 解 
if e<=0 
JO= JN; CO = CN; IDXO = IDXN; 
else 
if(rand < exp( — e/T)) 
JO= JN; 
CO= CN; 
IDXO = IDXN; 
else 
IDXN = IDXO; IDX = IDXO; CN = CO;JN = JO; 
end 
end 
else 
IDXN = IDXO; IDX = IDXO; CN = CO; 
JN= JO; 
end 
end 
多 内 层 循环 结束 
T=Tx0.9; 


RRPmee 人 we 
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if(T== 0) 
break; 
end 
time= time+1; 
if(time — timeb>1000) 
break; 
end 
disp( ' 已 退火 次 数 '); 
A=time—1 
disp( "最 优 目标 函数 值 '); 
J=J0 
end 
timel = toc 
hold on; 
plot3(CO(:,1),C0(:,2),C0(:,3), '0');grid; box 
title(' 蚁 群 聚 类 结果 (R= 100,t = 10000)') 
xlabel( 'x') 
ylabel( 'Y') 


so 


退火 需要 的 时 间 


zlabel( 
indexl 


2 
find(IDXN == 1) 


index2 = find(IDXN == 2) 
index3 = find(IDXN == 3) 
index4 = find(IDXN == 4) 


plot3(p(index1, 1), p(index1,2), p( index1, 3), 'r + ') ;grid; 
plot3(p( index2, 1), p(index2, 2), p( index2, 3), 'g * ');grid; 
plot3(p( index3, 1), p(index3, 2), p( index3, 3), 'kx');grid; 
plot3(p( index4, 1),p(index4, 2), p( index4, 3), 'm. ') ;grid; 


程序 运行 完 以 后 ,出 现 如 图 7-4 所 示 数 据 分 类 图 。 


站 已 加 有 | RSA IRA- 加 sg 
3500 
年 
3000 -| i 
+ o 
2500 、 十 十 | 二 eT PR 
x OW 
= 
Na 一 六 和 
x Ol x 
e000 xxx 
ee 寺 
x 
1000 J = 
9 . 站 
500 
2 3500 
X 40001500 2000 2500 S000 


图 7-4 模拟 退火 分 类 结果 图 
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MATLAB 程序 的 运行 结果 如 下 : 
indexl = 
全 6 16 25 32 39 42 53 54 56 
index2 = 
1 一 15 列 
2 va 34 38 44 46 
48 
16 列 
55 
index3 = 
1~15 列 
各 条 潜 让 Ey 20 21 26 30 3 33 3 40 41 
47 
16~-20 列 
5 52 57 58 59 
index4 = 
0 45 49 50 
将 分 类 结果 与 诛 始 分 类 结果 对 比 ,如 表 7-2 所 示 , 可 以 发 现 分 类 效果 很 好 。 
表 7-2 模拟 退火 分 类 与 原始 分 类 结果 对 比 

号 A B C 原始 分 类 结果 模拟 退火 网 络 分 类 结果 
1 1675.15 和 3 
2 3087.05 4 4 
3 1652 3 3 
4 1647. 31 1 1 
5 3059. 54 4 4 
6 1 1 
学 3 3 
8 2 2 
9 4 4 
10 1 4 
让 3 | 
32 4 4 
13 4 4 
14 中 2 
15 2 2 
16 1 1 
到 3 1 
18 2 加 
19 2949. 16 2 
20 1692. 62 3 1 
21 1680. 67 3 3 
22 2802. 88 2 
23 172.78 4 4 
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续 表 
序号 A B C 原始 分 类 结果 模拟 退火 网 络 分 类 结果 
24 2063. 54 3199. 76 1257. 21 2 2 
25 1449. 58 1641. 58 3405. 12 1 1 
26 1651.52 1713.28 1570. 38 3 2 
27 341.59 3076. 62 2438. 63 4 4 
28 291.02 3095. 68 2088. 95 4 4 
29 237.63 3077.78 2251. 96 4 4 
30 1702.8 1639.79 2068. 74 3 3 
31 1877. 93 1860. 96 1975. 3 3 3 
32 867. 81 2334. 68 2535. 1 1 1 
33 1831. 49 1713. 11 1604. 68 3 3 
34 460. 69 3274.77 2172. 99 4 4 
35 2374. 98 3346. 98 975. 31 2 2 
36 2271. 89 3482. 97 946.7 2 2 
37 1783. 64 1597. 99 2261. 31 3 3 
38 198. 83 3250. 45 2445. 08 4 4 
39 1494. 63 2072. 59 2550. 51 1 1 
40 1597.03 1921. 52 2126. 76 3 3 
41 1598. 93 1921.08 1623. 33 3 3 
42 1243. 13 1814.07 3441. 07 1 1 
43 2336. 31 2640. 26 1599. 63 2 2 
44 354 3300. 12 2373. 61 4 4 
45 2144.47 2501. 62 591. 51 2 2 
46 426. 31 3105. 29 2057.8 4 4 
47 1507. 13 1556. 89 1954. 51 3 3 
48 343.07 3271.72 2036. 94 4 4 
49 2201. 94 3196. 22 935. 53 2 2 
50 2232. 43 3077. 87 1298. 87 2 2 
51 1580. 1 1752. 07 2463. 04 3 3 
52 1962. 4 1594. 97 1835. 95 3 3 
53 1495. 18 1957. 44 3498. 02 1 1 
54 1125. 17 1594. 39 2937.73 1 1 
55 24. 22 3447. 31 2145. 01 4 4 
56 1269. 07 1910.72 2701. 97 1 
57 1802.07 1725. 81 1966. 35 3 3 
58 1817. 36 1927. 4 2328. 79 3 3 
59 1860. 45 1782. 88 1875. 13 3 3 


| 7.4 大 


虽然 模拟 退火 算法 有 限度 地 接受 劣 解 ,可 以 跳出 局 部 最 优 解 ,但 它 明显 存在 两 个 弱点 : 
(1) 如 果 降 温 过 程 足够 慢 , 所 得 到 解 的 性 能 会 较 好 ,但 算法 收敛 速度 太 慢 。 
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(2) 如 果 降温 过 程 过 快 , 很 可 能 得 不 到 全 局 最 优 解 。 为 此 ,模拟 退火 算法 的 改进 及 其 在 
各 类 复杂 系统 建 模 及 优化 问题 中 的 应 用 仍 有 大 量 的 内 容 值 得 研究 。 


(1) 简 述 模拟 退火 过 程 。 
(2) 简 述 模拟 退火 算法 的 基本 原理 。 
(3) 简 述 模拟 退火 算法 的 组 成 。 


= 


遗传 算法 聚 类 设计 


遗传 算法 是 一 种 模拟 自然 进化 的 优化 搜索 算法 。 由 于 它 仅 依靠 适应 度 函 数 就 可 以 搜索 
最 优 解 ,不 需要 有 关 问 题解 空间 的 知识 ,并 且 适 应 度 函 数 不 受 连续 可 微 等 条 件 的 约束 ,因此 
在 解决 多 维 、 高 度 非 线 性 的 复杂 优化 问题 中 得 到 了 广泛 应 用 和 深入 研究 。 

遗传 算法 在 模式 识别 ,神经 网 络 、 机 器 学 习 、 工 业 优化 控制 、 自 适应 控制 .生物 科学 、 社 会 
科学 等 方面 都 得 到 了 应 用 。 

本 章 给 出 了 一 种 基于 遗传 算法 的 聚 类 分 析 方法 。 采 用 浮 点 数 编码 方式 对 聚 类 的 中 心 进 
行 编码 ,并 用 特征 向 量 与 相应 聚 类 中 心 的 欧 氏 距离 的 和 来 判断 聚 类 划分 的 质量 ,通过 选择 、 
交叉 和 变异 操作 对 聚 类 中 心 的 编码 进行 优化 ,得 到 使 聚 类 划分 效果 最 好 的 聚 类 中 心 。 实 验 
结果 显示 ,该 方法 的 聚 类 划分 能 得 到 比较 满意 的 效果 。 由 于 前 面 章节 已 经 对 聚 类 算法 做 了 
详细 介绍 ,此 处 不 再 袭 述 。 


遗传 算法 的 研究 历史 可 以 追溯 到 20 世纪 60 年 代 , 从 20 世纪 60 年 代 到 70 年 代 中 期 ， 
是 遗传 算法 的 萌芽 期 。 遗 传 算法 的 基本 原理 最 早 由 美国 科学 家 J. H. Holland 在 1962 年 提 
出 ; 1967 年 ,J.D. Bagay 在 他 的 博士 论文 中 首次 使 用 了 遗传 算法 这 个 术语 ; 1975 年 ,J. H. 
”Holland 在 他 出 版 的 专著 (自然 界 和 人 工 系统 的 适应 性 ) 中 详细 地 介绍 了 该 算法 ,为 其 英 定 
了 数学 基础 ,人 们 常常 把 这 一 事件 视 为 遗传 算法 正式 得 到 承认 的 标志 。 此 标志 说 明 遗 传 算 
法 已 经 完成 孕育 过 程 ,Holland 也 被 视 为 该 算法 的 创始 人 。 
从 20 世纪 70 年 代 中 期 到 80 年 代 , 遗 传 算 法 得 到 了 不 断 完善 ,属于 遗传 算法 的 成 长 期 。 
这 一 时 期 相继 出 现 了 有 关 遗 传 算法 的 博士 论文 ,分 别 研究 了 遗传 算法 在 函数 优化 ,组 合 优 化 
中 的 应 用 ,并 从 数学 上 探讨 了 遗传 算法 的 收敛 性 ,对 遗传 算法 的 发 展 起 到 了 很 大 的 推动 作 
用 。30 多 年 来 ,该 算法 不 论 是 实际 应 用 还 是 建 模 ,其 范围 不 断 扩 大 ,而 算法 本 身 也 渐渐 成 
熟 ,形成 了 算法 的 大 体 框架 。 其 后 出 现 的 遗传 算法 的 许多 改进 研究 ,大 体 都 遵循 了 这 个 
框架 。 


第 8 章 遗传 算法 聚 类 设计 
20 世纪 80 年 代 示 以 来 是 遗传 算法 的 莲 勃 发 展期 ,这 不 仅 表现 在 理论 研究 方面 ,还 表现 
在 应 用 领域 方面 。 随 着 遗传 算法 研究 和 应 用 的 不 断 深入 ,一 系列 以 遗传 算法 为 主题 的 国际 
会 议 十 分 活跃 : 开始 于 1985 年 的 国际 遗传 算法 会 议 (International Conference on Genetic 
Algorithm,ICGA) 每 两 年 举办 一 次 。 在 欧洲 ,从 1990 年 开始 也 每 隔 一 年 举办 一 次 类 似 的 会 
议 。 这 些 会 议 的 举办 表明 遗传 算法 正 不 断 地 引起 学 术 界 的 重视 ,同时 这 些 会 议 的 论文 集中 
反映 了 遗传 算法 近年 来 的 最 新 发 展 和 动向 。 
随 着 计算 速度 的 提高 和 并 行 计算 的 发 展 ,遗传 算法 的 速度 已 经 不 青 是 制约 其 应 用 的 因 
素 ,遗传 算法 已 在 机 器 学 习 、 过 程控 制 . 图 像 处 理 \ 经 济 管理 等 领域 取得 了 巨大 成 功 ,但 如 何 
将 各 专业 知识 融入 遗传 算法 中 ,目前 仍 在 继续 研究 。 


信 引 引 焉 传 算法 原理 


遗传 算法 是 一 种 搜索 最 优 解 方法 ,其 过 程 类 似 于 自然 进化 ,通过 作用 于 染色 体 上 的 基因 
寻找 好 的 染色 体 来 求解 问题 。 遗 传 算法 模拟 生物 进化 的 过 程 ,具有 很 好 的 自 组 织 、 自 适应 和 
自学 习 能 力 ,在 求解 大 规模 优化 问题 的 全 局 最 优 解 方面 具有 广泛 的 应 用 。 聚 类 问题 的 解 是 
各 个 集合 的 中 心 ,通过 对 问题 的 解 进行 编码 ,然后 对 编码 进行 选择 ,交叉 和 变异 操作 ,结合 评 
价 解 好 坏 的 适应 度 函 数 ,就 可 找到 按 所 选 的 评价 标准 来 说 是 比较 好 的 聚 类 划分 。 

遗传 算法 对 于 复杂 的 优化 问题 无 须 建 模 和 复杂 运算 ,只 要 利用 遗传 算法 的 三 种 算 子 就 
能 得 到 最 优 解 ,这 就 是 遗传 算法 的 基本 原理 。 


8.2.1 遗传 算法 的 基本 术语 


由 于 遗传 算法 是 自然 遗传 学 和 计算 机 科学 相互 结合 渗透 而 成 的 新 的 计算 方法 ,因此 遗 
传 算法 中 经 常 使 用 自然 进化 中 有 关 的 一 些 基 本 术语 。 了 解 这 些 用 语 对 理解 遗传 算法 是 十 分 
必要 的 。 

(1) 染色 体 (chromosome) ,又 称 为 个 体 (individual)。 生 物 的 染色 体 是 由 基因 (gene) 构 
成 的 位 串 , 包 含 了 生物 的 遗传 信息 。 遗 传 算法 中 的 染色 体 对 应 的 是 数据 或 数组 ,通常 是 由 一 
维 的 串 结 构 数 据 来 表示 的 。 串 结构 上 每 个 位 置 上 的 数据 对 应 一 个 基因 ,而 各 位 置 上 所 取 的 
值 对 应 于 基因 值 。 

(2) 编码 (coding)。 把 问题 的 解 表示 为 位 串 的 过 程 称 为 编码 ,编码 后 的 每 个 位 串 就 表 
示 一 个 个 体 , 即 问题 的 一 个 解 。 

(3) 种 群 (population) 。 由 一 定数 量 的 个 体 组 成 的 群体 ,也 就 是 问题 的 一 些 解 的 集合 。 
种 群 中 个 体 的 数量 称 为 种 群 规模 。 

(4) 适应 度 (fitness)。 评 价 群体 中 个 体 对 环境 适应 能 力 的 指标 ,就 是 解 的 好 坏 , 由 评价 
函数 下 计算 得 到 。 在 遗传 算法 中 ,FF 是 求解 问题 的 目标 函数 ,也 就 是 适应 度 函 数 。 

(5) 遗传 算 子 (genetic operator) 。 产 生 新 个 体 的 操作 ,常用 的 遗传 算 子 有 选择 .交叉 和 
变异 等 。 

选择 (selection) : 以 一 定 概率 从 种 群 中 选择 若干 个 体 的 操作 。 一 般 而 言 ,该 操作 是 基于 


适应 度 进行 的 ,适应 度 越 高 的 个 体 ,产生 后 代 的 概率 就 越 高 。 

交叉 (crossover): 把 两 个 串 的 部 分 基因 进行 交换 ,产生 两 个 新 串 作为 下 一 代 的 个 体 。 
交叉 概率 (P。) 决 定 两 个 个 体 交叉 操作 的 可 能 性 。 

变异 (mnutation) : 随机 地 改变 染色 体 的 部 分 基因 ,例如 把 0 变 1, 或 把 1 变 0, 产 生 新 的 
染色 体 。 


8.2.2 遗传 算法 进行 问题 求解 的 过 程 


遗传 算法 进行 问题 求解 过 程 如 下 。 

(1) 选择 编码 策略 ,参数 编码 ,把 参数 集合 和 域 转换 为 位 串 结构 空间 。 

(2) 适应 度 函 数 的 设计 。 

(3) 确定 遗传 策略 ,包括 群体 规模 ,选择 .交叉 .变异 算 子 及 其 概率 。 

(4) 初始 群体 的 设 定 。 

(5) 计算 群体 中 各 个 体 的 适应 度 值 。 

(6) 按照 遗传 策略 ,将 遗传 算 子 作用 于 种 群 ,产生 下 一 代 种 群 。 

(7) 迭代 终止 判定 。 

遗传 算法 涉及 六 大 要 素 :, 参数 编码 ,初始 群体 的 设 定 、 适 应 度 函 数 的 设计 、 遗 传 操作 的 
设计 、 控 制 参数 的 设 定 .迭代 终止 条 件 。 


8.2.3 遗传 算法 的 优 缺 点 


遗传 算法 的 优点 如 下 。 

(1) 快速 简单 。 搜 索 过 程 具有 快速 随机 的 搜索 能 力 。 

(2) 并 行 性 。 搜 索 具有 潜在 的 并 行 性 ,可 以 进行 多 个 个 体 的 同时 比较 ,健壮 性 好 。 
(3) 随机 性 。 使 用 概率 机 制 进行 迭代 。 

(4) 可 扩展 性 。 容 易 与 其 他 算法 结合 。 


遗传 算法 的 缺点 如 下 。 
(1) 早熟 。 这 是 最 大 的 缺点 , 即 算法 对 新 空间 的 探索 能 力 是 有 限 的 ,也 容易 收敛 到 局 部 
最 优 解 。 


(2) 大 量 计算 。 涉 及 大 量 个 体 的 计算 , 当 问题 复杂 时 ,计算 时 间 是 个 问题 。 

(3) 处 理 规模 小 。 目 前 对 于 维 数 较 高 的 问题 ,还 是 很 难处 理 和 优化 。 

(4) 难于 处 理 非 线性 约束 。 对 非 线性 约束 的 处 理 , 大 部 分 算法 都 是 添加 惩罚 因子 ,这 是 
一 笔 不 小 的 开支 。 

(5) 稳定 性 差 。 因 为 算法 属于 随机 类 算法 ,需要 多 次 运算 ,结果 的 可 靠 性 差 , 不 能 稳定 
地 得 到 解 。 


8.2.4 遗传 算法 的 基本 要 素 


遗传 算法 包含 如 下 5 个 基本 要 素 : 问题 编码 .初始 群体 的 设 定 .适应 度 函 数 的 设计 、 遗 


传 操 作 设计 和 控制 参数 的 设 定 。 这 5 个 要 素 构成 了 遗传 算法 的 核心 内 容 。 


1， 问题 编码 


编码 机 制 是 遗传 算法 的 基础 。 通 常 遗传 算法 不 直接 处 理 问题 空间 的 数据 ,而 是 将 各 种 
实际 问题 变换 为 与 问题 无 关 的 串 个 体 。 不 同 串 长 和 不 同 的 编码 方式 ,对 问题 求解 的 精度 和 
遗传 算法 的 求解 效率 有 着 很 大 的 影响 ,因此 针对 一 个 具体 应 用 问题 ,应 考虑 多 方面 因素 ,以 
寻求 一 种 描述 方便 、 运 行 效率 高 的 编码 方案 。 迄 今 为 止 ,遗传 算法 常 采 用 的 编码 方法 主要 有 
两 类 : 二 进 制 编码 和 浮 点 数 编码 。 

1) 二 进 制 编码 

二 进 制 编码 是 遗传 算法 中 最 常用 的 一 种 编码 方法 ,该 方法 使 用 的 编码 符号 集 是 由 二 
制 符号 0 和 1 所 组 成 的 二 值 符号 集 {0,1), 它 所 构成 的 个 体 是 一 个 二 进 制 编码 符号 串 。 二 
制 编码 符号 串 的 长 度 与 问题 所 要 求 的 求解 精度 有 关 。 es 
等 特点 。 

2) 浮 点 数 编码 

浮 点 数 编码 方法 又 叫 真 值 编码 方法 , 它 是 指 个 体 的 每 个 基因 值 用 某 一 范围 内 的 一 个 浮 
iain 个 体 的 编码 长 度 等 于 其 决策 变量 的 个 数 。 该 编码 方法 具有 适用 于 大 空间 搜索 、 

局 部 搜索 能 力 强 不易 陷入 局 部 极 值 .收敛 速度 快 的 特点 。 


2. 初始 群体 的 生成 

遗传 算法 处 理 流程 中 ,编码 设计 之 后 的 任务 是 初始 群体 的 设 定 ,并 以 此 为 起 点 进行 
一 代 一 代 的 进化 直到 按照 某 种 进化 终止 准则 终止 。 最 常用 的 初始 方法 是 无 指导 的 随机 
初始 化 。 


3. 适应 度 函 数 (fitness function) 的 确定 


在 遗传 算法 中 , 按 与 个 体 适应 度 成 正比 的 概率 来 决定 当前 群体 中 的 每 个 个 体 遗 传 到 下 
一 代 群 体 中 的 机 会 多 少 ,一般 希望 适应 值 越 大越 好 , 且 要 求 适应 值 非 负 。 因 此 适应 值 函 数 的 
选取 至 关 重 要 , 它 直接 影响 到 算法 的 收敛 速度 及 最 终 能 和 否 找到 最 优 解 。 

适应 度 函 数 是 根据 目标 函数 确定 的 ,针对 不 同 种 类 的 问题 ,目标 函数 有 正 有 负 , 因 此 必 
须 确定 由 目标 函数 值 到 适应 度 函 数 之 间 的 映射 规则 ,以 适应 上 述 的 要 求 。 适 应 度 函 数 的 设 
计 应 满足 以 下 条 件 : 

(1) 单 值 、 连 续 , 非 负 、 最 大 化 。 

(2) 计算 量 小 。 适 应 度 函 数 设计 尽 可 能 简单 ,以 减少 计算 的 复杂 性 。 

(3) 通用 性 强 。 适 应 度 对 某 类 问题 应 尽 可 能 通用 。 


4. 遗传 操作 


遗传 操作 主要 包括 选择 交叉、 变异 三 个 算 子 。 关 于 每 个 算 子 的 作用 前 面 已 提 及 了 ,此 
处 不 青 闭 述 。 这 里 主要 说 一 下 每 种 算 子 常用 的 方法 。 

1) 选择 算 子 

在 适应 度 计算 之 后 是 实际 的 选择 ,选择 的 目的 是 为 了 从 当前 群体 中 选 出 优良 的 个 体 ,使 


它们 作为 父 代 进行 下 一 代 繁殖 。 采 用 基于 适应 度 的 选择 原则 ,适应 度 越 强 被 选中 概率 越 大 ， 
体现 了 优胜 劣 汰 的 进化 机 制 。 这 里 介绍 几 种 常用 的 选择 方法 : 

(1) 赌 轮 选择 法 。 该 方法 中 个 体 被 选中 的 概率 与 其 适应 度 大 小 成 正比 。 

(2) 最 优 保存 策略 。 群 体 中 适应 度 最 高 的 个 体 不 进行 交叉 变异 ,用 它 蔡 换 下 一 代 种 群 
中 适应 度 最 低 的 个 体 。 

(3) 锦标 赛 选择 法 。 随 机 从 种 群 中 选取 一 定数 目的 个 体 ,然后 将 适应 度 最 高 的 个 体 遗 
传 到 下 一 代 群 体 中 。 这 个 过 程 重复 进行 直到 完成 个 体 的 选择 。 

(4) 排序 选择 法 。 根 据 适 应 度 对 群体 中 的 个 体 排序 ,然后 把 事先 设 定 的 概率 表 分 配给 
个 体 , 作 为 各 自 的 选择 概率 。 这 样 , 选 择 概率 和 适应 度 无 关 而 仅 与 序号 有 关 。 

选择 算 子 确定 的 好 坏 , 直 接 影响 到 遗传 算法 的 计算 结果 。 如 果 选 择 算 子 确定 不 当 , 会 导 
致 进化 停滞 不 前 或 出 现 早熟 问题 。 选 择 策略 与 编码 方式 无 关 。 

为 交叉 算 子 

交叉 算 子 是 遗传 算法 中 最 主要 的 遗传 操作 ,也 是 遗传 算法 区 别 于 其 他 进化 运算 的 重要 
特征 ,通过 交叉 操作 可 以 产生 新 的 个 体 。 该 操作 模拟 了 自然 界 生 物体 的 突变 ,体现 了 信息 交 
换 思想 ,决定 着 遗传 算法 的 收敛 性 和 全 局 搜索 能 力 。 

交叉 算 子 的 设计 与 实现 与 所 研究 的 问题 密切 相关 ,一 般 要 求 它 既 不 要 破坏 原 个 体 的 优 
良性 ,又 能 够 产生 出 一 些 较 好 的 新 个 体 ,而 且 , 还 要 和 编码 设计 一 同 考虑 。 目 前 适合 于 二 进 
制 编码 的 个 体 和 浮 点 数 编码 的 个 体 的 交叉 算法 主要 有 : 

(1) 单 点 交叉 。 单 点 交叉 又 称 简单 交叉 ,是 指 在 个 体 编码 串 中 随机 设置 一 个 交叉 点 , 实 
行 交叉 时 ,在 该 点 相互 交换 两 个 配对 个 体 的 部 分 染色 体 。 

(2) 两 点 交叉 与 多 点 交叉 。 两 点 交叉 是 指 在 个 体 编码 串 中 随机 设置 了 两 个 交叉 点 , 交 
换 两 个 个 体 在 所 设 定 两 个 交叉 点 之 间 的 部 分 染色 体 。 例 如 : 

A: 101110|11=>A’ = 1001011 
B: 00 | 010 | 00=>B’ = 0011000 

多 点 交叉 是 两 点 交叉 的 推广 。 

(3) 均匀 交叉 。 均 匀 交 叉 也 称 一 致 交叉 ,是 指 两 个 交叉 个 体 的 每 个 基因 都 以 相同 的 交 
又 概率 进行 交换 ,从 而 形成 两 个 新 的 个 体 。 

(4) 算术 交叉 。 该 算法 是 指 由 两 个 个 体 的 线性 组 合 而 产生 的 两 个 新 的 个 体 。 该 方法 的 
操作 对 象 一 般 是 由 浮 点 数 编码 产生 的 个 体 。 

3) 变异 算 子 

选择 和 交叉 算 子 基本 上 完成 了 遗传 算法 的 大 部 分 搜索 功能 ,变异 操作 只 是 对 产生 的 新 
个 体 起 辅助 作用 ,但 是 它 必 不 可 少 , 因 为 变异 操作 决定 了 遗传 算法 的 局 部 搜索 能 力 。 变 异 算 
子 与 交叉 算 子 相互 配合 ,共同 完成 对 搜索 空间 的 全 局 搜索 和 局 部 搜索 ,从 而 使 得 遗传 算法 能 
够 以 良好 的 搜索 性 能 找到 最 优 解 。 

目前 适合 于 二 进 制 编码 的 个 体 和 浮 点 数 编码 的 个 体 的 变异 算法 主要 有 : 

(1) 基本 位 变异 。 该 算法 是 指 对 群体 中 的 个 体 编码 串 根据 变异 概率 ,随机 挑选 一 个 或 
多 个 基因 位 并 对 这 些 基因 位 的 基因 值 进行 变动 。 例 如 : 

个 体 A: 1011011 


指定 第 三 位 为 变异 位 , 则 
个 体 A': 1001011 

(2) 均匀 变异 。 该 算法 是 指 分 别 用 符合 某 一 范围 内 均匀 分 布 的 随机 数 , 以 某 一 较 小 的 
概率 来 替换 个 体 编码 串 中 各 基因 座 上 原 有 的 基因 值 。 

(3) 边界 变异 。 该 算法 是 均匀 变异 的 一 个 变形 。 在 进行 边界 变异 时 ,随机 选取 基因 座 
的 两 个 对 应 边界 基因 值 之 一 去 替换 原 有 的 基因 值 。 

(4) 高 斯 近似 变异 。 该 算法 是 指 进行 变异 操作 时 用 符合 均值 为 已 ,方差 为 P* 的 正 态 分 
布 的 一 个 随机 数 来 替换 原 有 的 基因 值 。 


5. 控制 参数 


控制 参数 主要 有 和 群体 规模 .迭代 次 数 、 交 叉 概 率 、 变 异 概率 等 ,对 于 它们 基本 的 遗传 算法 
都 需要 提前 设 定 。 

N: 群体 大 小 , 即 群 体 中 所 含 个 体 的 数量 。 如 果 群 体 规模 大 ,可 提供 大 量 模式 ,使 遗传 
算法 进行 启发 式 搜索 ,防止 早熟 发 生 ,但 会 降低 效率 ; 如 果 群 体 规模 小 ,可 提高 速度 ,但 却 会 
降低 效率 。 一 般 取 值 为 20 一 100。 

T: 遗传 运算 的 终止 进化 代数 ,一般 取 值 为 100 一 500。 

P.: 交叉 概率 。 它 影响 着 交叉 算 子 的 使 用 频率 ,交叉 率 越 高 ,可 以 越 快 地 收敛 到 全 局 最 
优 解 ,因此 一 般 选 择 较 大 的 交叉 率 。 但 如 果 交 叉 率 太 高 ,也 可 能 导致 过 早 收敛 ,而 交叉 率 太 
低 , 可 能 导致 搜索 停滞 不 前 ,一 般 取 值 为 0.4 一 0. 99 。 

Pu : 变异 概率 。 变 异 率 控制 着 变异 算 子 的 使 用 频率 , 它 的 大 小 将 影响 群体 的 多 样 性 及 
成 熟 前 的 收敛 性 能 。 变 异 率 的 选取 一 般 受 种 群 大 小 、 染 色 体 长 度 等 因素 影响 ,通常 选取 很 小 
的 值 。 但 变异 率 太 低 可 能 使 某 基因 值 过 早 丢 失 、 信 息 无 法 恢复 ; 变异 率 太 高 ,遗传 算法 可 能 
会 变 成 随机 搜索 。 一 般 取 值 为 0.0001 一 0. 1。 

这 四 个 运行 参数 对 遗传 算法 的 求解 结果 和 求解 效率 都 有 一 定 的 影响 ,但 目前 尚 无 合 
理 选择 它们 的 理论 依据 。 在 实际 应 用 中 ,常常 需要 经 过 多 次 实验 后 才能 确定 参数 或 其 
范围 。 


算法 实现 


本 例 使 用 表 1-1 中 的 三 元 色 数 据 , 希 望 按照 颜色 数据 所 表征 的 特点 ,将 数据 按照 各 自 所 
属 的 类 别 进行 归 类 。 

下 面 取 表 1-1 的 59 组 数据 为 分 析 对 象 ,使 用 MATLAB 构建 遗传 优化 算法 。 程 序 流程 
如 图 8-1 所 示 。 


8.3.1 种 群 初始 化 


遗传 聚 类 算法 需要 设置 的 参数 有 四 个 ,分 别 是 : 交叉 概率 pcross、 遗 传 概率 pmutation、 


开始 


(TD 输入 最 大 迭代 次 数 maxgen 
(2) 种 群 大 小 sizepop 
(3) 输入 交叉 概率 peross 

(4) 输入 变异 概率 pmutation 


1 


(D 随机 生成 一 个 种 群 
(2) 计算 每 个 个 体 的 适应 度 
G3) 找 出 最 好 的 个 体 ， 记 录 最 好 适应 度 和 平均 适应 度 


1 
(1) 进行 选择 、 交 叉 和 变异 操作 
(2) 计算 每 个 个 体 的 适应 度 
(3) 找 出 适应 度 最 大 的 个 体 
(4) 代 奉 上 一 次 适应 度 最 大 的 个 体 


进化 代数 (迭代 次 数 )maxgen 和 种 群 规模 sizepop。 这 里 的 参数 的 设置 如 MATLAB 程序 代 


码 所 示 : 


% 名 参数 初始 化 
maxgen = 100; 
sizepop= 100; 
pcross = 0.9; 
pmutation = 0.01; 


按照 遗传 算法 的 程序 流程 ,用 遗传 算法 求解 ,首先 要 解决 的 问题 是 如 何 确定 编码 和 解码 
运算 。 编 码 形式 决定 了 交叉 算 子 和 变异 算 子 的 操作 方式 ,并 对 遗传 算法 的 性 能 如 搜索 能 力 


选 代 次 数 是 否 小 于 maxgen 


迭代 次 数 加 1 


和 输出 适应 度 最 大 的 个 体 | 
(最 佳 聚 类 中 心 ) 


进行 聚 类 


输出 聚 


图 8-1 遗传 聚 类 算法 流程 图 


名 进化 代数 , 即 迭 代 次 数 ,初始 预定 值 选 为 100 
名 种 群 规模 ,初始 预定 值 选 为 100 

# 交叉 概率 选择 , 0 一 1, 一般 取 0.9 

*# 变异 概率 选择 ,0 一 1, 一 般 取 0.01 


和 计算 效率 等 影响 很 大 。 


由 8.2 节 可 知 ,遗传 算法 常用 的 编码 方法 有 浮 点 数 编码 和 二 进 制 编码 两 种 。 由 于 聚 类 
样本 具有 多 维 性 .数据 量 大 的 特点 ,如 果 采 用 传统 的 二 进 制 编码 ,染色 体 的 长 度 会 随 着 维 数 
的 增加 或 精度 的 提高 而 显著 增加 ,从 而 使 搜索 空间 急剧 增 大 ,大 大 降低 了 计算 效率 。 基 于 上 
面 的 分 析 , 这 里 采用 浮 点 数 编码 方法 。 

在 遗传 聚 类 问题 中 ,可 采用 的 染色 体 编码 方式 有 两 种 : 一 种 是 按照 数据 所 属 的 聚 类 划 
分 来 生成 染色 体 的 整数 编码 方式 ; 另 一 种 是 把 聚 类 中 心 ( 聚 类 原型 和 矩阵) 作为 染色 体 的 浮 点 
数 编码 。 由 于 聚 类 问题 的 解 是 各 聚 类 中 心 ,因此 本 文采 用 基于 上 聚 类 中 心 的 浮 点 数 编码 。 

所 谓 的 将 聚 类 中 心 作为 染色 体 的 浮 点 数 编码 ,就 是 把 一 条 染色 体 看 成 是 由 K 个 聚 类 中 
心 组 成 的 一 个 串 。 具 体 编码 方式 如 下 : 对 于 了 维 样本 数据 的 天 类 聚 类 分 析 , 基 于 聚 类 中 心 
的 染色 体 结构 为 

S = {zur TH Ta 2 T2d TH Tt C8=1 
即 每 条 染色 体 都 是 一 个 长 度 为 AXd 的 浮 点 码 串 。 这 种 编码 方式 意义 明确 .直观 ,避免 了 二 
进 制 编码 在 运算 过 程 中 反复 进行 译 码 、 解 码 以 及 染色 体 长 度 受 限 等 问题 。 

确定 了 编码 方式 之 后 , 接 下 来 要 进行 种 群 初始 化 。 初 始 化 的 过 程 是 随机 产生 一 个 初始 
种 群 的 过 程 。 首 先 从 样本 空间 中 随机 选 出 K 个 个 体 ,K 值 由 用 户 自 己 来 指定 ,每 个 个 体 表 
示 一 个 初始 聚 类 中 心 ,然后 根据 我 们 所 采用 的 编码 方式 将 这 组 个 体 ( 聚 类 中 心 ) 编 码 成 一 条 
染色 体 。 然 后 重复 进行 Ps. 次 染色 体 初始 化 (Ps 为 种 群 大 小 ) ,直到 生成 初始 种 群 。 


8.3.2 适应 度 函 数 的 设计 


根据 前 面 的 介绍 可 知 , 遗 传 算法 中 的 适应 度 函 数 是 用 来 评价 个 体 的 适应 度 、 区 别 群体 中 
个 体 优 劣 的 标准 。 个 体 的 适应 度 越 高 ,其 存活 的 概率 就 越 大 。 聚 类 问题 实际 上 就 是 找到 一 
种 划分 ,该 划分 使 待 桶 类 数据 集 的 目标 函数 GLG: 二 六 | xp 一 my 有 ?myG 一 1,2,10) 


是 聚 类 中 心 , zx 是 样本 ) 达 到 最 小 。 遗 传 算 法 在 处 理 过 程 中 根据 每 个 染色 体 (K 个 聚 类 中 
心 ) 进 行 聚 类 划分 ,根据 每 个 聚 类 中 的 点 与 相应 聚 类 中 心 的 距离 作为 判别 聚 类 划分 质量 好 坏 
的 准则 函数 G。, Ce 越 小 表示 聚 类 划分 的 质量 越 好 。 

遗传 算法 的 目的 是 搜索 使 目标 函数 G. 值 最 小 的 聚 类 中 心 ,因此 可 借助 目标 函数 来 构造 
适应 度 函 数 
a 
Ge 

由 式 (8-2) 可 以 看 出 ,目标 函数 值 越 小 的 聚 类 中 心 ,其 适应 度 也 就 越 大 ; 目标 函数 值 越 
大 的 聚 类 中 心 ,其 适应 度 也 就 越 低 。 

种 群 初始 化 的 MATLAB 程序 代码 如 下 : 


fit = (8-2) 


individuals = struct( 'fitness', zeros(1, sizepop), 'chrom', [ ]); 

名 种 群 ,种 群 由 sizepop 条 染色 体 (chrom) 及 每 条 染色 体 的 适应 度 (fitness) 组 成 
avgfitness=[]; 

名 记录 每 一 代 种 群 的 平均 适应 度 ,首先 赋 给 一 个 空 数组 


bestfitness = []; 


弄 


模式 识别 与 人 工 智能 (基于 MATLAB) 


名 记录 每 一 代 种 群 的 最 佳 适应 度 , 首先 赋 给 一 个 空 数组 
bestchrom= []; 


名 记 录 适 应 度 最 好 的 染色 体 ,首先 赋 给 一 个 空 数组 


名 初始 化 种 群 
for i=1:sizepop 
各 随机 产生 一 个 种 群 
individuals. chrom(i, :) = 4000 * rand(1,12); 
和 把 12 个 0 一 4000 的 随机 数 赋 给 种 群 中 的 一 条 染色 体 ,代表 K=4 个 聚 类 中 心 
x= individuals. chrom(i, :); 
名 计算 每 条 染色 体 的 适应 度 
individuals. fitness(i) = fitness(x); 
end 


%% 找 最 好 的 染色 体 

[bestfitness bestindex] = max(individuals. fitness); 

名 找 出 适应 度 最 大 的 染色 体 ,并 记录 其 适应 度 的 值 (bestfitness) 和 染色 体 所 在 的 位 置 (bestindex) 
bestchrom = individuals. chrom(bestindex, : ); 

把 最 好 的 染色 体 赋 给 变量 bestchrom 

avgfitness = sum(individuals. fitness)/sizepop; 

计算 群体 中 染色 体 的 平均 适应 度 


% 记录 每 一 代 进 化 中 最 好 的 适应 度 和 平均 适应 度 
trace = [avgf itness bestfitness]; 


适应 度 函 数 的 MATLAB 程序 代码 如 下 : 


function fit =fitness(x) 

多 计算 个 体 适应 度 值 

多 x input 个 体 

多 fit output 适应 度 值 

data = load[ "a. txt" ]; 

kernel = [x(1:3);x(4:6);x(7:9);x(10:12)]; 

对 染色 体 进行 编码 , 其 中 x(1:3) 代 表 第 一 个 聚 类 中 心 ,x(4:6) 代 表 第 二 个 聚 类 中 心 , x(7:9) 代 表 第 

三 个 聚 类 中 心 ,x(10:12) 代 表 第 四 个 聚 类 中 心 

Ge=0 

Gc 代表 聚 类 的 准则 函数 

[n,m] = size(data); 

包 求 出 待 聚 类 数据 的 行 和 列 

for i=1:n 
distl = norm(data(i,1:3) - kernel(1, :)); 
dist2 = norm(data(i,1:3) - kernel(2, :)); 
dist3 = norm(data(i,1:3) - kernel(3, :)); 
dist4 = norm(data(i,1:3) — kernel(4, :)); 
计算 待 聚 类 数据 中 的 某 一 点 到 各 个 聚 类 中 心 的 距离 
a= [distl dist2 dist3 dist4]; 

mindist = min(a); 

当 取 其 中 的 最 小 值 , 代表 其 被 划分 到 某 一 类 

Gc =mindist+ Gc; 


名 求 类 中 某 一 点 到 其 聚 类 中 心 的 距离 和 , 即 准 则 函数 
end 


fit=1/Gc; 
名 求 出 染色 体 的 适应 度 , 即 准 则 函数 的 倒数 , 聚 类 的 准则 函数 越 小 , 染色 体 的 适应 度 越 大 , 聚 类 的 效 
名 果 也 就 越 好 


8.3.3 选择 操作 


在 生物 进化 的 过 程 中 ,对 生存 环境 适应 能 力 强 的 物种 将 有 更 多 的 机 会 遗传 到 下 一 代 , 而 
适应 能 力 差 的 物种 遗传 到 下 一 代 的 机 会 就 相对 较 少 。 遗 传 算法 中 的 选择 操作 体现 了 这 一 
“ 适 者 生存 ”的 原则 : 适应 度 越 高 的 个 体 , 参 与 后 代 繁 殖 的 概率 越 高 。 遗 传 算法 中 的 选择 操 
作 就 是 用 来 确定 如 何 从 父 代 群 体 中 按照 某 种 方法 选取 哪些 个 体 遗 传 到 下 一 代 群 体 的 一 种 遗 
传 运算 。 选 择 操作 建立 在 对 个 体 的 适应 度 进行 评价 的 基础 之 上 。 进 行 选 择 操作 的 目的 是 为 
了 避免 基因 缺失 ,提高 全 局 收敛 性 和 计算 效率 。 

为 了 保证 适应 度 最 好 的 染色 体 保留 到 下 一 代 群 体 而 不 被 遗传 操作 破坏 掉 , 根 据 遗 传 算 
法 中 目前 已 有 的 选择 方法 ,本 例 采 用 了 轮 盘 赌 选择 算 子 。 该 选择 算 子 具 体 选 择 步骤 如 下 ， 

(1) 首先 在 计算 完 当 前 种 群 的 适应 度 后 ,记录 下 其 中 适应 度 最 大 的 个 体 。 

(2) 根据 各 个 体 的 适应 度 值 /Si) (i 二 1,2,… ,Ps) 计算 各 个 体 的 选择 概率 


P,= As (8-3) 


pe 


Es 
式 中 , Ps. 为 种 群 大 小 , > /CS;) 为 所 有 个 体 适应 度 的 总 和 。 
i=1 


(3) 根据 计算 出 的 选择 概率 ,使 用 轮 盘 赌 法 选 出 个 体 。 

(4) 被 选 出 的 个 体 参加 交叉 ,变异 操作 产生 新 的 群体 。 

(5) 计算 出 新 群体 中 的 各 条 染色 体 的 适应 度 值 ,用 上 一 代 中 记录 的 最 优 个 体 替 换 掉 新 
种 群 中 的 最 差 个 体 ,这 样 就 产生 了 下 一 代 群 体 。 

这 种 遗传 操作 既 不 断 提高 了 群体 的 平均 适应 度 值 ,又 保证 了 最 优 个 体 不 被 破坏 ,使 得 迭 
代 过 程 向 最 优 方向 发 展 。 

选择 操作 的 MATLAB 程序 代码 如 下 : 


function ret = Select(individuals, sizepop) 

% 本 函数 对 每 一 代 种 群 中 的 染色 体 进 行 选择 , 以 进行 后 面 的 交叉 和 变异 步 又 
多 individuals input: 种 群 信息 

% sizepop input: ”种 群 规模 

% ret output: 经 过 选择 后 的 种 群 


sumfitness = sum( individuals. fitness); 

名 计算 群体 的 总 适应 度 

sumf = (individuals. fitness). /sumfitness; 

名 计算 出 染色 体 的 选择 概率 , 即 染 色 体 的 适应 度 除 以 总 适应 度 


index= []; 
名 用 来 记录 被 选中 染色 体 的 序号 ,首先 付 给 一 个 空 数组 
for i=1:sizepop 
名 转 sizepop 次 轮 盘 
pick = rand; 
名 把 一 个 0 一 1 的 随机 数 赋 给 pick 
while pick == 0 
pick = rand, 
end 
和 确保 pick 被 赋值 
for i=1:sizepop 
pick= pick— sumf(i); 
各 染色 体 的 选择 概率 越 大 ,pick 越 容易 小 于 0, 即 染 色 体 越 容易 被 选中 
if pick <0 
index = [index i]; 
名 把 被 选中 的 染色 体 的 序号 赋 给 index 
break; 
end 
end 
end 
individuals. chrom = individuals. chrom( index, : ); 
$ 记录 选中 的 染色 体 
individuals, fitness= individuals. fitness( index); 
多 记录 选中 染色 体 的 适应 度 
ret = individuals; 
输出 经 过 选择 后 的 染色 体 


8.3.4 交叉 操作 


交叉 操作 是 把 两 个 父 个 体 的 部 分 结构 加 以 替换 重组 而 产生 新 个 体 的 操作 ,也 称 为 基因 
重组 。 交叉 的 目的 是 为 了 能 够 在 下 一 代 产 生 新 的 个 体 ,因此 交叉 操作 是 遗传 算法 的 关键 部 
分 ,交叉 算 子 的 好 坏 ,在 很 大 程度 上 决定 了 算法 性 能 的 好 坏 。 

由 于 染色 体 以 聚 类 中 心 矩 阵 为 基因 ,造成 了 基因 串 的 无 序 性 。 两 条 染色 体 的 等 位 基因 
之 间 的 信息 不 一 定 相 关 , 如 果 采 用 传统 的 交叉 算 子 进行 交叉 ,将 使 染色 体 在 进行 交叉 时 ,不 
能 很 好 地 将 基因 配对 起 来 ,使 得 生成 的 下 一 代 个 体 的 适应 值 普遍 较 差 ,影响 了 算法 的 效率 。 
为 了 改善 这 种 情况 ,又 因为 本 例 所 使 用 的 是 浮 点 数 编码 方式 ,因此 本 例 采 用 了 一 种 以 随机 交 
叉 为 基础 的 随机 交叉 算 子 。 

交叉 操作 的 MATLAB 程序 代码 如 下 : 


function ret = Cross(pcross, chrom, sizepop) 
本 函数 完成 交叉 操作 

% pcorss input: 交叉 概率 

多 lenchrom ”input: 染色 体 的 长 度 

% chrom input: 染色 体 群 

各 sizepop ”input: 种 群 规模 

% ret output: 交叉 后 的 染色 体 


for i=1:sizepop 


各 交叉 概率 决定 是 否 进行 交叉 


各 给 pick 赋予 一 个 0 一 1 的 随机 数 
if pick > pcross 
cont inue; 
end 
各 当 pick <pcross 时 ,进行 交叉 操作 
index = ceil(rand(1,2). * sizepop); 
while (index(1) == index(2)) | index(1) * index(2) ==0 
index = ceil(rand(1,2). * sizepop); 
end 
名 在 种 群 中 ,随机 选择 两 个 个 体 
pos = ceil(rand* 3); 
while pos == 0 
pos= ceil(rand* 3); 
end 
s# 在 染色 体 当 中 ,随机 选择 交叉 位 置 
temp = chrom( index(1), pos); 
chrom( index(1), pos) = chrom( index(2), pos); 
chrom( index(2), pos) = temp; 
多 把 两 条 染色 体 某 个 位 置 的 信息 进行 交叉 互 换 
end 
ret = chrom; 


输出 经 过 交叉 操作 后 的 染色 体 


8.3.5 变异 操作 


在 生物 自然 进化 的 过 程 中 ,细胞 分 裂 的 过 程 可 能 会 出 现 某 些 差 错 , 导 致 基因 变异 情况 的 


变异 操作 的 MATLAB 程序 代码 如 下 : 


function ret = Mutation(pmutation, chrom, sizepop) 
% 本 函数 完成 变异 操作 


% pcorss input: 变异 概率 

% lenchrom input: 染色 体 长 度 

% chrom input: 染色 体 群 

% sizepop input: 种 群 规模 

% bound input: 每 个 个 体 的 上 届 和 下 届 


% ret output: 变异 后 的 染色 体 


发 生 。 变 异 操作 就 是 模仿 这 种 情况 产生 的 。 所 谓 变 异 操作 ,是 指 将 个 体 染 色 体 编码 串 中 的 
某 些 基因 座 上 的 基因 值 用 该 基因 座 的 其 他 等 位 来 替换 ,从 而 形成 一 个 新 的 个 体 。 变 异 的 目 
的 有 二 : 一 是 增强 算法 的 局 部 搜索 能 力 ; 二 是 增加 种 群 的 多 样 性 ,改善 算法 的 性 能 ,避免 早 
熟 收敛 。 变 异 操作 既 可 以 产生 种 群 中 没有 的 新 基因 又 可 以 恢复 迭代 过 程 中 被 破坏 的 基因 。 
本 例 所 使 用 的 是 浮 点 数 编码 方式 ,采用 随机 变异 算 子 来 完成 变异 操作 。 


for i=1:sizepop 
变异 概率 决定 该 轮 循环 是 否 进行 变异 
pick= rand; 
if pick > pmutation 
continue; 
end 
#% 当 pick 小 于 变异 概率 时 ,执行 变异 操作 
pick = rand; 
while pick==0 
pick = rand; 
end 
index = ceil(pick* sizepop); 
和 在 种 群 中 ,随机 选择 一 条 染色 体 
pick = rand; 
while pick == 0 
pick = rand; 
end 
pos = ceil(pick * 3); 
s# 在 染色 体 当 中 , 随机 选择 变异 位 置 
chrom( index, pos) = rand * 4000; 
名 染色 体 进行 变异 
end 
ret = chrom; 


名 输出 变异 后 的 染色 体 


8.3.6 完整 程序 及 仿真 结果 
遗传 算法 的 完整 MATLAB 程序 代码 如 下 ， 


clic 

tic 

参数 初始 化 

maxgen = 100; 进化 代数 , 即 迭 代 次 数 ,初始 预定 值 选 为 100 
sizepop= 100; 多 种 群 规模 ,初始 预定 值 选 为 100 

peross = 0.9; 多 交叉 概率 选择 ,0 一 1, 一 般 取 0.9 
pmutation = 0.01; # 变异 概率 选择 ,0 一 1, 一 般 取 0.01 
individuals = struct( 'fitness', zeros(1, sizepop), 'chrom', [ ]); 
# 种群 ,种 群 由 sizepop 条 染色 体 (chrom) 及 每 条 染色 体 的 适应 度 (fitness) 组 成 
avgfitness=[]; 

记录 每 一 代 种 群 的 平均 适应 度 ,首先 赋 子 一 个 空 数组 
bestfitness = []; 

记录 每 一 代 种 群 的 最 佳 适应 度 ,首先 赋 子 一 个 空 数组 
bestchrom= []; 

记录 适应 度 最 好 的 染色 体 ,首先 赋予 一 个 空 数组 

名 初始 化 种 群 

for i=1:sizepop 


名 随机 产生 一 个 种 群 
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individuals. chrom(i,:) = 4000 * rand(1,12); 

名 把 12 个 0 一 4000 的 随机 数 赋予 种 群 中 的 一 条 染色 体 ,代表 K= 4 个 聚 类 中 心 
x= individuals. chrom(i, :); 

名 计算 每 条 染色 体 的 适应 度 

individuals.fitness(i) = fitness(x); 

end 

名 找 最 好 的 染色 体 

[bestfitness bestindex] = max( individuals. fitness); 

外 找 出 适应 度 最 大 的 染色 体 , 并 记录 其 适应 度 的 值 (bestfitness) 和 染色 体 所 在 的 位 置 (bestindex) 
bestchrom = individuals. chrom(bestindex, :); 

把 最 好 的 染色 体 赋予 变量 bestchrom 

avgfitness = sum( individuals. fitness)/sizepop; 

计算 群体 中 染色 体 的 平均 适应 度 

trace= [avgfitness bestfitness]; 

多 记录 每 一 代 进 化 中 最 好 的 适应 度 和 平均 适应 度 


for i=1:maxgen 


1 

输出 进化 代数 

individuals = Select(individuals, sizepop); 

avgfitness = sum( individuals. fitness)/sizepop; 

% 对 种 群 进行 选择 操作 ,并 计算 出 种 群 的 平均 适应 度 
individuals. chrom = Cross( pcross, individuals. chrom, sizepop); 
% 对 种 群 中 的 染色 体 进行 交叉 操作 

individuals. chrom = Mutation( pmutation, individuals. chrom, sizepop); 
% 对 种 群 中 的 染色 体 进行 变异 操作 

for j=1:sizepop 

x= individuals. chrom(j, :);% 解 码 

[individuals. fitness(j)] = fitness(x); 

end 

计算 进 化 种 群 中 每 条 染色 体 的 适应 度 

[newbestfitness, newbestindex] = max( individuals. fitness); 
[worestfitness, worestindex] = min( individuals. fitness); 
名 找到 最 小 和 最 大 适应 度 的 染色 体 及 它们 在 种 群 中 的 位 置 
if bestfitness < newbestfitness 

bestfitness = newbestfitness; 

bestchrom = individuals. chrom(newbest index, : ); 

end 

当代 替 上 一 次 进化 中 最 好 的 染色 体 

individuals.chrom( worestindex, :) = bestchrom; 
individuals.fitness(worestindex) = bestfitness; 

名 淘汰 适应 度 最 差 的 个 体 

avgfitness = sum( individuals. fitness)/sizepop; 

trace = [trace;avgfitness bestfitness]; 

名 记录 每 一 代 进 化 中 最 好 的 适应 度 和 平均 适应 度 

end 

figure(1) 

plot(trace(:,1),'— x*r'); 

title(' 适 应 度 函 数 曲线 (100 * 100)') 

hold on 

plot(trace(:,2),'— ob'); 


legend( 平均 适应 度 曲 线 ', ' 最 佳 适应 度 曲 线 ', 'location', 'southeast') 
%s# 画 出 适应 度 变化 曲线 

cle 

%$ 面 出 聚 类 点 

datal = load('aa. txt'); 

名 待 分 类 的 数据 

kernel = [bestchrom(1:3);bestchrom(4:6) ;bestchrom(7:9);bestchrom(10:12)]; 
当 解 码 出 最 佳 聚 类 中 心 

[n,m] = size(datal); 

各 求 出 待 聚 类 数据 的 行 数 和 列 数 

index = cell(4,1); 

外 用 来 保存 聚 类 类 别 

dist=0; 

各 用 来 计算 准则 函数 

for i=1:n 

dis(1) = norm(kernel(1,:)- datal(i, :)); 

dis(2) = norm(kernel(2, :) - datal (i, :)); 

dis(3) = norm(kernel(3, :) - datal(i, :)); 

dis(4) = norm(kernel(4, :) - datal(i, :)); 

s# 计 算出 待 聚 类 数据 中 的 一 点 到 各 个 聚 类 中 心 的 距离 
[value, index1] = min(dis); 

名 找 出 最 短 距离 和 其 聚 类 中 心 的 种 类 

cid(i) = indexl; 

名 用 来 记录 数据 被 划分 到 的 类 别 

index{ indexl,1} = [index{ index1, 1} i]; 

dist = dist + value; 

计算 准则 函数 

end 

cid; 

dist; 

% 名 绘图 

figure(2) 

plot3(bestchrom(1),bestchrom(2), bestchrom(3), 'ro'); 
title('result100 x 100') 

hold on 

s* 夯 出 第 一 类 的 聚 类 中 心 

indexl = index{1,1}; 

for i=1:1length( indexl) 

plot3(datal( index1(i),1),datal(index1(i),2), datal( index1(i),3),'rx*') 
hold on 

end 

hold on 

当面 出 被 划分 到 第 一 类 中 的 各 点 

indexl = index{2,1}; 

plot3(bestchrom(4), bestchrom(5),bestchrom(6), 'bo'); 
hold on 

当面 出 第 二 类 的 聚 类 中 心 

for i=1:length( indexl) 

plot3(datal( index1(i),1),datal(indexl1(i),2), datal( index1(i),3),'bx '); 
grid on; 


hold on 

end 

多面 出 被 划分 到 第 二 类 中 的 各 点 

indexl = index{3,1}; 

plot3(bestchrom(7), bestchrom(8), bestchrom(9), 'go'); 
hold on 

多 面 出 第 三 类 的 聚 类 中 心 

for i=1:length( index1) 

plot3(datal( index1(i),1), datal (index1(i),2), datal( index1(i),3),'g* '); 
hold on 

end 

名画 出 被 划分 到 第 三 类 中 的 各 点 

indexl = index{4,1}; 

plot3(bestchrom(10), bestchrom(11), bestchrom(12), 'ko'); 
hold on 

当面 出 第 四 类 的 聚 类 中 心 

for i=1:length( indexl) 

plot3(datal( index1 (i),1),datal(indexl(i),2), datal( index1 (i),3), 'k* '); 
hold on 

end 

当面 出 被 划分 到 第 四 类 中 的 各 点 


toc 


程序 运行 完 以 后 ,初始 聚 类 结果 如 图 8-2 所 示 ,适应 度 曲线 如 图 8-3 所 示 。 
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图 8-2 ”maxgen 一 100,sizepop 一 100 时 的 聚 类 结果 


模式 识别 与 人 工 智能 (基于 MATLAB) 
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下 一 平均 适应 度 曲线 
一 全 一 最 佳 适应 度 曲 栈 


8-3 ”maxgen 一 100,sizepop 一 100 时 的 适应 度 函数 曲线 


分 析 聚 类 结果 可 知 , 当 进化 代数 ( 即 迭 代 次 数 )maxgen 二 100, 种 群 规模 sizepop 一 100 
时 ,有 一 类 仅 有 一 个 数据 , 聚 类 结果 明显 是 错误 的 ,并 没有 按照 要 求 把 数据 聚 为 四 类 。 通 过 
分 析 适 应 度 函 数 曲 线 可 知 , 群 体 的 平均 适应 度 在 进化 到 第 100 左右 刚好 达到 收敛 ,所 以 不 是 
迭代 次 数 的 问题 ,就 可 能 是 种 群 规模 的 问题 ,就 像 在 自然 界 进化 过 程 当 中 ,一 个 种 群 的 规模 
越 大 ,其 产生 优秀 个 体 的 可 能 性 也 就 越 大 ,经 过 进化 后 ,就 能 产生 更 加 优秀 的 群体 。 所 以 ,我 
们 要 不 断 增加 种 群 规 模 来 比较 其 聚 类 效果 ,这 里 依次 取 sizepop 一 200,300,400,500,…。 当 
进化 代数 ( 即 迭 代 次 数 )maxgen 二 100, 种 群 规模 sizepop 二 700 时 , 聚 类 结果 如 图 8-4 所 示 ， 
适应 度 曲 线 如 图 8-5 所 示 。 

但 是 当 种 群 规模 增加 到 sizepop 二 700 左右 时 , 聚 类 效果 依然 不 佳 ,种 群 的 平均 适应 度 
曲线 并 没有 收敛 ,这 时 就 需要 增加 进化 代数 maxgen。 这 就 像 在 自然 界 进化 中 ,虽然 一 个 种 
群 的 规模 很 大 ,产生 优秀 个 体 的 可 能 性 很 大 ,但 是 没有 经 过 长 时 间 的 进化 ,没有 达到 优胜 劣 
汰 的 效果 。 

就 这 样 ,经 过 不 断 地 增 大 种 群 规模 ,并 找到 其 合适 的 进化 代数 来 观察 聚 类 的 效果 。 但 
是 ,是 不 是 种 群 规模 越 大 ,进化 代数 越 大 越 好 呢 ? 显然 不 是 的 ,种 群 规模 越 大 ,进化 代数 越 
大 , 聚 类 效果 确实 越 好 ,但 是 付出 的 代价 却 是 收敛 速度 越 慢 ,所 以 我 们 要 根据 实际 情况 确定 
一 个 合适 的 种 群 规模 和 进化 代数 。 

遗传 算法 实验 的 聚 类 结果 如 表 8-1 所 示 。 
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图 8-5 maxgen 一 100,sizepop 一 700 时 的 适应 度 函 数 曲线 


表 8-1 聚 类 结果 
种 群 规模 进化 代数 运行 次 数 准则 函数 平均 值 收敛 速度 平均 值 /s 
100 100 5 42138 4. 6325108 
200 100 49595 8. 4666738 
300 100 5 43696 12. 320991 
400 100 40945 17. 223390 
500 100 5 40555 19. 819010 
600 100 5 43832 24. 137784 
700 100 5 44060 29.798188 
800 150 47935 46. 834691 
900 150 5 36118 54. 178806 
1000 150 5 37477 63. 526360 
1100 150 5 44204 65. 906776 
1200 150 5 31969 68. 900633 
1500 200 5 30493 114. 950724 
2000 200 9 33498 153. 360266 
2500 250 5 37530 234. 189298 
3000 300 5 40662 332. 896752 
4000 300 5 39092 446. 044975 


通过 对 比 表 中 数据 可 以 看 出 , 随 着 种 群 规模 和 进化 代数 的 增加 ,准则 函数 的 值得 到 明显 
下 降 , 得 出 了 正确 的 聚 类 结果 ,但 是 具有 很 大 的 随机 性 ,收敛 速度 也 越 来 越 慢 。 当 进化 代数 
〈 即 迭代 次 数 )maxgen 一 200, 种 群 规模 sizepop 一 1500 时 ,准则 函数 平均 值 最 小 , 聚 类 结果 是 
实验 中 最 好 的 , 聚 类 结果 如 图 8-6 所 示 ,适应 度 函 数 曲线 如 图 8-7 所 示 。 
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图 8-6 ”maxgen 一 200,sizepop 一 1500 时 的 聚 类 结果 
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8-7 maxgen 二 200,sizepop 二 1500 时 的 适应 度 函 数 曲线 


本 章 给 出 了 遗传 算法 的 概念 原理、 特点 及 实现 的 流程 ,通过 实例 介绍 了 遗传 算法 在 聚 
类 问题 的 实现 方法 与 步 又。 


(1) 什么 是 遗传 算法 ? 

(2) 常用 的 遗传 算 子 有 哪些 ? 
(3) 遗传 算法 的 特点 是 什么 ? 
(4) 简 述 遗传 算法 的 基本 要 素 。 


蚁 群 算法 聚 类 设计 


蚁 群 优化 算法 是 由 意大利 学 者 M. Dorigo 等 人 提出 的 一 种 新 型 的 解决 组 合 优化 问题 的 
模拟 进化 算法 。 该 算法 不 仅 能 够 实现 智能 搜索 .全 局 优化 ,而 且 具 有 稳健 性 、 正 反馈 、 分 布 式 
计算 、 易 与 其 他 算法 相 结合 等 特点 。 


蚁 群 算法 最 初 由 意大利 学 者 M. Dorigo 等 人 于 1991 年 首次 提出 。 根 据 蚂蚁 “寻找 食 
物 ” 的 群体 行为 .M. Dorigo 在 会 议 ECAL(European Conference on Artificial Life) 上 最 早 提 
出 了 蚁 群 算法 的 基本 模型 ,1992 年 M. Dorigo 又 在 其 博士 学 位 论文 中 进一步 阐述 了 蚁 群 算 
法 的 核心 思想 。 在 1996 年 , M. Dorigo 又 一 篇 奠基 性 文章 Ant system :optimization by a 
colony of cooperation agents 在 IEEE Transactions on Systems, Man,and Cybernetics— 
PartB 上 发 表 , 在 该 文中 ,M. Dorigo 等 不 仅 对 蚁 群 算法 的 基本 原理 和 数学 模型 做 了 更 加 系 
统 的 闹 述 ,还 将 其 与 遗传 算法 ,禁忌 搜索 算法 ,模拟 退火 算法 、 候 山 法 等 进行 了 仿真 实验 比 
较 , 并 把 算法 拓展 到 解决 非 对 称 旅行 商 问题 (travelling sales man problem,TSP) .指派 问题 
(quadratic assignment problem, QAP) 以 及 车 间作 业 调 度 问 题 (job-shop scheduling 
problem,JSP) ,并 且 对 算法 中 初始 参数 对 性 能 的 影响 做 了 初步 探讨 。 自 1996 年 起 , 蚁 群 算 
法 作为 一 种 新 颖 的 、 处 于 前 沿 的 问题 优化 求解 算法 ,在 算法 的 改进 .算法 收敛 性 的 证 明 以 及 
应 用 领域 方面 逐渐 得 到 了 世界 许多 国家 研究 者 的 关注 。 进 入 21 世纪 ,国际 著名 的 顶级 学 术 
刊物 Nature 多 次 报道 了 蚁 群 算 法 的 研究 成 果 , Future Generation Computer Systems 和 
IEEE Transaction on Evolutionary Computation 分 别 出 版 了 蚁 群 算法 专刊 。 目 前 ,对 蚁 群 
算法 及 其 应 用 的 研究 已 经 成 为 国内 外 许多 学 术 期 刊 和 会 议 上 的 一 个 研究 热点 和 前 沿 性 课 
题 。 随 着 蚁 群 算法 研究 的 兴起 ,人 们 发 现在 某 些 方面 采用 蚁 群 模型 进行 聚 类 更 加 接近 实际 
聚 类 问题 。 

蚁 群 优化 算法 是 一 种 新 型 的 解决 组 合 优化 问题 的 模拟 进化 算法 。 它 是 模拟 自然 界 中 蚂 
蚊 的 更 食 行为 产生 的 。 蚂 蚊 在 运动 过 程 中 不 仅 能 够 在 所 经 路 径 上 留 下 一 种 叫 作 信息 素 
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(pheromone) 的 物质 ,而 且 它 们 还 能 够 感知 到 这 种 物质 的 存在 ,并 以 此 指导 自己 的 运动 方 
向 。 蚂 蚁 个 体 之 间 通 过 这 种 信息 交流 达到 搜索 食物 的 目的 。 利 用 正 反馈 原理 ,可 以 加 快 进 
化 过 程 : 分 布 式 计算 使 该 算法 易于 并 行 实现 ,个 体 之 间 不 断 进行 信息 交流 和 传递 ,有 利于 找 
到 较 好 的 解 ; 该 算法 易 与 多 种 启发 式 算法 结合 ,可 改善 算法 的 性 能 ; 由 于 健壮 性 强 , 故 在 基 
本 蚁 群 算法 模型 的 基础 上 进行 改进 , 便 可 用 于 其 他 问题 。 因 此 , 蚁 群 算法 的 问世 为 诸多 领域 
解决 复杂 优化 问题 提供 了 有 力 的 工具 。 


后 J 蚊 群 算法 原理 


9.2.1 基本 蚁 群 算法 原理 


现实 生活 中 单个 蚂蚁 的 能 力 和 智力 非常 简单 ,但 在 蚂蚁 寻找 食物 的 过 程 中 ,往往 能 
找到 蚁 穴 与 食物 之 间 的 最 佳 行进 路 线 。 不 仅 如 此 ,蚂蚁 还 能 够 适应 环境 变化 。 例 如 ,在 
蚂蚁 运动 路 线 上 突然 出 现 障碍 物 时 ,一 开始 蚂蚁 分 布 是 均匀 的 ,不 管 路 径 长 短 ,蚂蚁 总 是 
先 按照 同等 概率 选择 各 条 路 径 , 如 图 9-1 所 示 。 但 经 过 一 段 时 间 后 ,蚂蚁 能 够 很 快 重新 找 
到 最 优 路 径 。 


障碍 物 
图 9-1 蚂蚁 以 等 同 概率 选择 各 条 路 径 


蚁 群 的 这 些 特 性 早 就 引起 了 生物 学 家 和 仿生 学 家 的 强烈 兴趣 。 仿 生 学 家 通过 大 量 的 
细致 观察 和 研究 发 现 , 蚂 蚁 个 体 之 间 通 过 信息 素 进 行 信息 传递 ,从 而 相互 协作 ,完成 复杂 
的 任务 。 蚁 群 之 所 以 表现 出 复杂 有 序 的 行为 ,个 体 之 间 的 信息 交流 与 相互 协作 起 着 重要 
的 作用 。 

蚂蚁 在 运动 过 程 中 ,能 够 在 其 所 经 过 的 路 径 上 留 下 信息 素 , 而 且 蚂 蚁 在 运动 过 程 中 能 够 
感知 到 信息 素 的 存在 ,并 以 此 确定 自己 的 运动 方向 。 蚂 蚁 倾向 于 朝 着 该 物质 强度 高 的 方向 
移动 。 如 果 路 径 上 出 现 障碍 物 时 ,相等 时 间 内 蚂蚁 留 在 较 短路 径 上 的 信息 素 比 较 多 ,这样 就 
形成 了 正 反馈 现象 .选择 较 短 路 径 的 蚂 蚊 也 会 随 之 增多 ,如 图 9-2 所 示 。 

蚂蚁 运动 过 程 中 , 较 短 路 径 上 遗留 的 信息 素 会 在 很 短 时 间 内 大 于 较 长 路 径 的 信息 素 , 原 
因 不 妨 用 图 9-3 说 明 : 假设 A、E 两 点 分 别 是 蚁 群 的 巢穴 和 食物 源 ,之 间 有 两 条 路 径 A 一 
B 一 H 一 D 一 E 和 A 一 B 一 C 一 D 一 E, 其 中 B 一 H 和 H 一 D 间距 离 为 1m,B 一 C 和 C 一 D 间距 
离 为 0. 5m。 


模式 识别 与 人 工 智能 (基于 MATLAB) 


E 
li [ie 


20 只 


NA 
H H 
d=1 ~ B“ d=0.5 es 友 ， Ss C0 
mm ll 
A A A 


d=1 ,D 15 只 


图 9-3 蚂蚁 选择 路 径 示 意图 


最 初 ( 即 :一 0 时 刻 ) ,如 图 9-3 所 示 , 当 30 只 蚂蚁 走 到 分 支 路 口 B 或 者 D 点 时 ,要 决定 
往 哪个 方向 走 。 因 为 初始 时 没有 什么 线索 可 以 为 蚂蚁 提供 选择 路 径 的 标准 ,所 以 它们 就 以 
相同 的 概率 选择 路 径 ,结果 有 15 只 蚂 蚊 走 左 边 的 路 径 D 一 H、B 一 H, 另 外 15 只 蚂蚁 走 右 边 
的 路 径 D 一 C、B 一 C ,这些 蚂蚁 在 行进 过 程 中 分 别 留 下 信息 素 。 假 设 蚂 蚊 都 具有 相同 的 速度 
(lm/s) 和 信息 素 释放 能 力 , 则 经 过 1s 后 从 D 点 出 发 的 30 只 蚂蚁 有 15 只 到 达 了 也 点 ,有 
15 只 经 过 C 点 到 达 了 B 点 ; 同样 ,从 B 点 出 发 的 30 只 蚂蚁 有 15 只 到 达 了 也 点 ,有 15 只 经 
过 C 点 到 达 了 D 点 。 We 在 相等 的 时 间 间 隔 内 ,路 径 D 一 H 一 B 上 共有 15 只 蚂蚁 经 过 
并 遗留 了 信息 素 ,D 一 C 一 B 上 却 有 30 只 蚂蚁 经 过 并 遗留 了 信息 素 ,其 信息 素 浓 度 是 D 一 
H 一 B 路 径 上 的 2 倍 。 因 此 , 当 30 只 蚂 蚊 分 别 回 到 A、E 点 重新 选择 路 径 时 就 会 以 2 倍 于 
D 一 H 一 B 的 概率 选择 路 径 D 一 C 一 B, 从 而 使 D 一 H 一 B 上 的 蚂蚁 数目 变 成 了 10 只 ,距离 较 
短 的 路 径 上 信息 素 很 快 得 到 了 强化 ,其 优势 也 很 快 被 蚂蚁 发 现 。 
不 难看 出 ,由 大 量 蚂蚁 组 成 的 群体 的 集体 行为 表现 出 了 一 种 信息 正 反馈 现象 : 某 条 路 
径 上 走 过 的 蚂蚁 越 多 , 则 后 来 者 选择 该 路 径 的 概率 就 越 大 。 蚂 蚊 个 体 之 间 就 是 通过 这 种 信 
息 的 交流 来 达到 搜索 食物 的 目的 ,并 最 终 沿 着 最 短路 径 行 进 , 如 图 9-4 所 示 。 


图 9-4 蚂蚁 最 终 找 到 绕 过 障碍 物 的 最 优 路 径 


9.2.2 模型 建立 


1. 基于 蚂蚁 构造 墓地 和 分 类 幼体 的 聚 类 分 析 模 型 


蚁 群 构造 幕 地 行为 和 分 类 幼体 行为 统称 为 蚁 群 聚 类 行为 。 生 物 学 家 经 过 长 期 的 观察 发 
现 , 在 蚂蚁 群体 中 存在 一 种 本 能 的 聚集 行为 。 蚂 蚁 往往 能 在 没有 关于 蚂蚁 整体 的 任何 指导 
性 信息 的 情况 下 ,将 其 死去 同伴 的 尸体 安放 在 一 个 固定 的 场所 。Chretien 用 Lasiusniger 蚂 
蚁 做 了 大 量 试验 ,研究 蚂蚁 的 这 种 构造 幕 地 行为 ,发 现 工 蚊 能 在 几 小 时 内 将 分 散在 蚁 穴内 各 
处 的 任意 分 布 . 大 小 不 同 的 蚂蚁 尸体 聚 成 几 类 ; J. L. Deneubourg 等 人 也 用 Pheidole 
pallidula 蚂蚁 做 了 类 似 的 实验 。 另 外 观察 还 发 现 , 蚁 群 会 根据 蚂蚁 幼体 的 大 小 ,分 别 把 其 堆 
放 在 蚁 穴 周 围 和 中 央 的 位 置 。 真 实 的 蚁 群 聚 类 行为 的 实验 结果 如 图 9-5 所 示 , 四 张 照片 分 
别 对 应 实验 初始 状态 .3 小 时 .6 小 时 和 36 小 时 的 蚁 群 聚 类 情况 。 这 种 蚁 群 聚集 现象 的 基本 
机 制 是 小 的 聚 类 通过 已 聚集 的 蚂蚁 尸体 发 出 的 信息 素来 吸引 工 蚁 存放 更 多 的 同类 对 象 ,由 
此 变 成 更 大 的 聚 类 。 在 这 种 情况 下 , 蚁 穴 环境 中 的 聚 类 分 布 特性 起 到 了 间接 通信 的 作用 。 


~ TP 


9-5 真实 蚁 群 的 聚 类 行为 


针对 蚂蚁 构造 墓地 和 分 类 幼体 的 本 能 所 表现 出 来 的 聚 类 行为 ,Deneubourg 等 人 提出 了 
蚁 群 聚 类 的 基本 模型 (BM) 用 来 解释 这 种 现象 ,指出 单个 的 对 象 会 比较 容易 被 拾 起 并 且 移 
动 到 其 他 具有 很 多 这 类 对 象 的 地 方 。 

基本 模型 经 过 利用 个 体 与 个 体 和 个 体 与 环境 之 间 的 交互 作用 ,实现 了 自 组 织 聚 类 ,并 成 
功 地 应 用 于 机 器 人 的 控制 中 (一 群 类 似 于 蚂蚁 的 机 器 人 在 二 维 网 格 中 随意 移动 并 可 以 搬运 
基本 物体 ,最 终 把 它们 聚集 在 一 起 ) 。 该 模型 成 功 地 应 用 引起 了 各 国学 者 的 广泛 关注 和 研究 
热潮 。E. Lumer 和 B. Faieta 通过 在 Deneubourg 的 基本 分 类 模型 中 引入 数据 对 象 之 间 相 似 
度 的 概念 ,提出 了 LE 聚 类 分 析 算法 ,并 成 功 地 将 其 应 用 到 数据 分 析 中 。 


2. 基于 蚂蚁 觅 食 行为 和 信息 素 的 聚 类 分 析 模 型 


蚂蚁 在 更 食 过 程 中 ,能 够 分 为 搜索 食物 和 搬运 食物 两 个 环节 。 每 只 蚂蚁 在 运动 过 程 中 
都 将 会 在 其 所 经 过 的 路 径 上 留 下 信息 素 , 而 且 能 够 感知 到 信息 素 的 存在 及 其 强度 ,比较 倾向 
于 向 信息 素 强 度 高 的 方向 移动 。 同 样 信息 素 自 身 也 会 随 着 时 间 的 流逝 而 挥发 ,显然 某 一 路 
径 上 经 过 的 蚂蚁 数目 越 多 ,那么 其 信息 素 就 越 强 ,以 后 的 蚂蚁 选择 该 路 径 的 可 能 性 就 比较 
大 ,整个 蚁 群 的 行为 表现 出 了 信息 正 反 馈 现 象 。 

通过 借鉴 这 一 蚁 群生 态 原 理 , 基 于 蚂蚁 竟 食 行为 和 信息 素 的 聚 类 分 析 模 型 的 基本 思想 
是 将 数据 看 作 是 具有 不 同属 性 的 蚂蚁 , 聚 类 中 心 就 被 视 为 蚂蚁 所 要 寻找 的 “食物 源 ”, 数 据 聚 
类 过 程 可 以 看 作 是 蚂蚁 进行 找寻 食物 源 的 过 程 。 该 模型 的 算法 流程 如 图 9-6 所 示 。 

该 模型 可 以 描述 为 : 假设 待 分 类 的 数据 对 象 有 N 个 ,每 个 数据 对 象 有 m 个 属性 ,数据 
对 象 定义 为 X= {Xi| Xi 二 (xayzase* xin) ,i 二 1,2,… ,NN}), 分 类 数目 是 KK 类。 在 模式 样本 
i 处 分 别 放 午 一 个 蚂蚁 ,模式 样本 i 分 配给 第 j 个 聚 类 中 心 C;(j 二 1,2,…,K), 蚂 蚁 就 在 模 
式样 本 i 到 聚 类 中 心 Ci 的 路 径 (i,7) 上 留 下 信息 素 z(t)。d(Xi,C;) 表 示 Xi 到 聚 类 中 心 C; 
之 间 的 欧 氏 距离 ; Pj (?) 是 蚂蚁 选择 路 径 (i,j) 的 概率 ,计算 公式 为 

Pai — BE Ege Ny i (9-1) 
Drs Cm Ct) 
sES 


ll», dt¥ ,CR 
Ty w=| 


(9-2) 
0, d(Xi,CG)>R 


dXi,C)= | (zz 一 or) (9-3) 
r=1 


其 中 ,R 是 聚 类 半径 ; S={s|1d(X,,C;) 二 R,s 二 1,2,…,N 且 s 关 站 表示 分 布 在 聚 类 中 心 C; 
邻 域内 的 数据 对 象 的 集合 ; wy (1) 三 1/d(X;,C;) 表 示 t 时 刻 模式 样本 i 分 配给 第 j 个 聚 类 中 
心 C; 的 启发 信息 数值 ; a 和 8B 是 用 于 控制 信息 素 和 启发 数 的 可 调节 参数 ; 如 果 P; (2) 大 于 
阔 值 Pu ,就 将 X; 归并 到 C; 的 邻 域 。 

模型 终止 条 件 是 所 有 聚 类 总 偏离 误差 & 小 于 给 定 的 统计 误差 e。 。 所 有 聚 类 的 总 偏离 误 
差 & 计 算 公 式 为 


K 
上 = 2 各， 了 二 1,2,…,K(K 表示 总 类 别 数 ) (9-4) 
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处 理 完 所 有 数据 


图 9-6 基于 蚂蚁 竟 食 行为 和 信息 素 的 聚 类 分 析 模 型 流程 图 


还 
C= Db (9-6) 
i=1 


其 中 表示 第 j 个 聚 类 的 偏离 误差 ,Cj 为 新 的 聚 类 中 心 ,X; 是 所 有 归并 到 C; 类 中 的 数据 对 
象 , 即 Xi€ {Xi|d(Xs,C;)<R; hh 二 1,2,…,N),J 为 该 聚 类 中 所 有 数据 对 象 的 个 数 。 

该 模型 中 蚂蚁 的 通信 介质 是 其 在 路 径 上 留 下 的 信息 素 , 具 有 自 组 织 、 正 反馈 等 优点 。 尽 
管 该 方法 不 需要 事先 给 定 聚 类 的 个 数 , 但 由 于 需要 预先 设置 类 半径 ,因此 限制 了 生成 的 类 的 
规模 。 而 且 由 于 信息 素 的 更 新 原则 cj (四) 取 为 常数 1, 处 理 策略 使 用 的 是 局 部 信息 ,对 数据 
关联 性 也 没有 考虑 到 ,所 以 非常 容易 陷入 局 部 最 优 。 通 过 引入 蚁 群 算法 的 AntCycle 模型 
中 信息 素 的 处 理 方式 ,tj (1) 为 在 本 次 循环 中 所 经 过 的 路 径 总 长 度 的 函数 ,能 更 加 充分 地 利 
用 环境 中 的 整体 信息 。 这 种 信息 的 更 新 规则 能 够 让 短路 径 上 对 应 的 信息 量 逐 渐 增 大 ,这 样 


就 充分 体现 出 算法 中 全 局 范围 内 比较 短 的 路 径 的 生存 能 力 , 加 强 了 信息 的 正 反馈 性 能 ,而 且 
提高 算法 系统 搜索 收敛 的 速度 。 同 时 ,能 更 好 地 保证 残余 信息 伴随 着 时 间 的 推移 而 逐渐 减 
弱 ,把 不 好 的 路 径 “ 忘 记 ”, 这 样 即使 路 径 常 常 被 访问 也 不 至 于 因为 信息 素 积累 而 使 得 期 望 值 
的 作用 没 法 体现 出 来 。 


9.2.3” 虹 群 算法 的 特点 


蚁 群 算法 的 主要 特点 是 通过 正 反 馈 、 分 布 式 协作 来 寻找 最 优 解 , 这 是 一 种 基于 种 群 寻 优 
的 启发 式 搜索 算法 ,能 根据 聚 类 中 心 的 信息 量 把 周围 数据 归并 到 一 起 ,从 而 得 到 聚 类 分 类 。 
其 具体 步骤 为 : 变量 初始 化 ; 将 六 只 蚂蚁 放 到 ?个 城市 中 ; m 只 蚂蚁 按照 概率 函数 选择 下 
一 座 城市 ,完成 各 自 的 周游 ; 记录 本 次 迭代 的 最 佳 路 线 ; 更 新 信息 素 ; 禁忌 表 清 零 ; 输出 
结果 。 

蚁 群 算法 来 源 于 蚂蚁 搜索 食物 的 过 程 ,与 其 他 群集 智能 一 样 ,具有 较 强 的 健壮 性 ,不 会 
由 于 某 一 个 或 者 某 几 个 个 体 的 故障 而 影响 整个 问题 的 求解 ,具有 良好 的 可 扩充 性 ,由 系统 中 
个 体 的 增加 而 增加 的 系统 通信 开销 非常 小 。 

除 此 之 外 , 蚁 群 系统 还 具有 以 下 特点 : 

(1) 蚁 群 算法 是 一 种 并 行 的 优化 算法 。 蚂 蚁 搜索 食物 的 过 程 彼此 独立 ,只 通过 信息 素 
进行 间接 的 交流 。 这 为 并 行 计算 旅行 商 问题 提供 了 极 大 的 方便 。 旅 行商 问题 的 计算 量 一 般 
较 大 ,使 用 并 行 计算 可 以 显著 减少 计算 时 间 。 

(2) 蚁 群 算法 是 一 种 正 反馈 算法 。 一 段 路 径 上 的 信息 素 水 平 越 高 ,就 越 能 够 吸引 更 多 
的 蚂蚁 沿 着 这 条 路 径 运 动 ,这 又 使 得 其 信息 素 水 平 增加 。 正 反馈 的 存在 使 得 搜索 很 快 收敛 。 

(3) 蚁 群 算法 的 健壮 性 较 好 。 相 对 于 其 他 算法 , 蚁 群 算法 对 初始 路 线 的 要 求 不 高 。 也 
就 是 说 , 蚁 群 算法 的 搜索 结果 不 依赖 于 初始 路 线 的 选择 。 

(4) 蚁 群 算法 的 搜索 过 程 不 需要 进行 人 工 调 整 。 相 对 于 某 些 需 要 进行 人 工 干预 的 算法 
(如 模拟 退火 算法 ) , 蚁 群 算法 可 以 在 不 需要 人 工 干预 的 情况 下 完成 从 初始 化 到 得 到 整个 结 
果 的 全 部 计算 过 程 。 

蚁 群 算法 对 于 小 规模 (不 超过 30) 的 旅行 商 问题 效果 显著 ,但 对 于 较为 复杂 的 旅行 商 问 
题 ,其 性 能 急剧 下 降 。 主 要 原因 是 ,在 该 算法 的 初始 阶段 ,各 条 路 径 上 的 信息 素 水 平 基本 相 
等 ,蚂蚁 的 搜索 呈现 出 较 大 的 盲目 性 。 只 有 经 过 较 长 时 间 后 ,信息 素 水 平 才 呈 现 出 明显 的 指 
导 作 用 。 另 外 ,由 于 蚁 群 算法 是 一 种 正 反馈 算法 ,在 算法 速度 收敛 较 快 的 同时 ,也 容易 陷入 
局 部 优化 。 比 如 说 ,在 两 个 旅行 点 中 间 的 一 条 边 , 这 条 边 的 旅行 费用 在 所 有 相 邻 的 城市 中 是 
最 低 的 ,那么 ,在 搜索 的 初期 ,这 条 边 上 会 获得 最 高 的 信息 素 水 平 。 高 信息 素 水 平 又 容易 导 
致 更 多 的 蚂蚁 沿 这 条 路 径 运动 ,这 样 与 这 两 个 城市 相连 的 路 径 就 没有 太 多 的 机 会 被 访问 ,但 
实际 上 ,全 局 最 优 路 径 中 ,并 不 一 定 包 含 这 条 边 。 因 此 对 于 大 规模 的 旅行 商 问题 ,早期 的 蚁 
群 算法 搜索 到 最 优 解 的 可 能 性 较 小 。 

另外 , 蚁 群 算法 仍然 存在 一 些 缺 陷 , 如 在 性 能 方面 ,算法 的 收敛 速度 和 所 得 解 的 多 样 性 、 
稳定 性 等 性 能 之 间 存 在 矛盾 。 这 是 因为 蚊 群 中 多 个 个 体 的 运动 是 随机 的 ,虽然 通过 信息 交 
流 能 够 向 着 最 优 路 径 进 化 ,但 是 当 群 体 规模 较 大 时 ,很 难 在 较 短 时 间 内 从 杂乱 无 章 的 路 径 中 
找到 一 条 较 好 的 路 径 。 如 果 加 快 收敛 速度 则 很 可 能 导致 蚂蚁 的 搜索 陷入 局 部 最 优 ,造成 早 


熟 、 停 滞 现 象 。 

在 应 用 范围 方面 , 蚁 群 算法 的 应 用 局 限 在 较 小 的 范围 内 ,难以 处 理 连 续 空间 的 优化 
问题 。 由 于 每 只 蚂蚁 在 每 个 阶段 所 做 的 选择 总 是 有 限 的 , 它 要 求 离 散 的 解 空间 ,因而 对 
组 合 优化 等 离散 问题 很 适用 ,而 对 线性 和 非 线性 规划 等 连续 空间 的 优化 问题 的 求解 不 能 
直接 应 用 。 


基本 蚊 群 算法 的 实现 


本 例 使 用 表 1-1 中 的 三 元 色 数 据 , 按 照 颜 色 数 据 所 表征 的 特点 ,将 样本 按照 各 自 所 属 的 
类 别 归 类 。 

由 于 蚁 群 优化 算法 是 迭代 求 取 最 优 值 ,所 以 事先 无 须 训练 数据 , 故 取 59 组 数据 确定 类 
别 。 下 面 使 用 MATLAB 构建 蚁 群 优化 算法 。 程 序 流程 如 图 9-7 所 示 。 


开始 


[设置 初始 参数 R, Lmax |] 


| 蕊 1 初始 化 信息 素 甜 阵 | 


根据 信息 素 矩 阵 ， 确 定 蚂蚁 行走 路 径 ， 并 做 好 标识 | 


根据 路 径 标识 求 出 每 一 类 的 聚 类 中 心 ;计算 各 样本 
到 其 对 应 的 聚 类 中 心 的 总 的 偏离 误差 F 


根据 F 的 大 小 ， 找 到 此 时 的 最 佳 路 径 


输出 聚 类 结果 


图 9-7 程序 流程 图 


1. 程序 初始 化 


加 载 测试 样本 矩阵 X, 根 据 测 试 样本 ,给 出 样本 个 数 N ,测试 样本 的 属性 数 n( 即 维 数 ) ， 
给 定 聚 类 个 数 K( 即 要 分 成 几 类 ) ,给 定 蚂 蚁 数 R, 最 大 迭代 次 数 t_max, 最 佳 路 径 的 偏差 值 
best_solution_function_value, 初 始 值 设置 为 无 穷 大 。 


初始 化 程序 代码 如 下 : 

X= load( 'data. txt'); 

[N,n] = size(X); %N= 测试 样本 数 ;n= 测试 样本 的 属性 数 
K=4; %K= 组 数 

R= 100; %R= 蚂蚁 数 

t_max = 1000; %t_max= 最 大 迭代 次 数 


best_solution function value= inf; ”最 佳 路 径 度 量 值 ( 初 值 为 无 穷 大 ,该 值 越 小 聚 类 效果 越 好 ) 


2. 信息 素 矩 阵 初始 化 
信息 素 矩 阵 维 数 为 N* K( 样 本 数 * 聚 类 数 ) 初 始 值 为 0.01。 
信息 素 和 矩阵 初始 化 程序 如 下 : 


(oe 
tau = ones(N,K) * c; 外 信息 素 矩阵 ,初始 值 为 0.01 的 NxK 和 矩阵 (样本 数 x 聚 类 数 ) 


3. 蚂蚁 路 径 的 选择 及 标识 

定义 标识 字符 矩阵 solution_string, 维 数 为 Rx N 十 1, 初 始 值 都 为 0, 以 信息 矩阵 中 信息 
素 的 值 确 定 路 径 ( 即 确定 分 到 哪 一 组 ) ,具体 方法 如 下 : 

如 果 该 样本 各 信息 素 的 值 都 小 于 信息 素 阔 值 q, 则 取信 息 素 最 大 的 作为 路 径 。 若 最 大 
值 有 多 个 , 则 从 相同 的 最 大 值 中 随机 取 一 个 作为 路 径 。 

若 信息 素 大 于 阔 值 q, 则 求 出 各 路 径 信息 素 占 该 样本 总 信息 素 的 比例 ,以 概率 确定 
路 径 。 

4. 聚 类 中 心 选择 

聚 类 中 心 为 该 类 所 有 样本 的 各 属性 值 的 平均 值 。 


5. 偏离 误差 计算 

偏离 误差 的 计算 , 即 各 样本 到 其 对 应 的 聚 类 中 心 的 欧 氏 距离 之 和 下。 下 越 小 , 聚 类 效果 
越 好 。 计 算 每 只 蚂蚁 的 下 值 ,找到 最 小 的 下 值 ,该 值 对 应 的 路 径 为 本 次 迭代 的 最 佳 路 径 。 

6. 信息 素 更 新 


对 信息 素 和 矩阵 进行 更 新 ,更 新 方法 为 : 新 值 为 原 信息 素 值 乘 以 (1 一 rho) ,rho 为 信息 素 
蒸发 率 ,再 加 上 最 小 偏差 值 的 倒数 。 
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程序 代码 如 下 : 


For ss = Ly 
tau(i, best_solution(1,i)) = (1 - rho) * tau(i,best solution(1,i)) + 1/ tau F; 


信息 素 更 新 之 后 ,再 根据 新 的 信息 素 矩 阵 判 断路 径 ,进行 迭代 运算 ,直到 达到 最 大 迭代 
次 数 ,或 偏离 误差 达到 要 求 值 。 


7. 完整 程序 及 仿真 结果 
蚁 群 优化 算法 的 完整 MATLAB 程序 如 下 : 


Sieh 

CIE, 

clear; 

#%X = 测试 样本 和 矩阵; 
X = load('data.txt')7 


[N,n] = size(X); %N= 测试 样本 数 ;n= 测试 样本 的 属性 数 
Rd %K= 组 数 
R = 100; %R= 蚂 蚁 数 
t max = 1000; $%t_max= 最 大 迭代 次 数 
名 初始 化 
de 
tau = ones(N,K) * c; 多 信息 素 和 矩阵, 初始 值 为 0.01 的 NxK 算 阵 (样本 数 * 聚 类 数 ) 
G= 0.9; 名 阅 值 q 
rho = 0.1; % 蒸发 率 
best_solution function value = inf; $% 最 佳 路 径 度量 值 ( 初 值 为 无 穷 大 ,该 值 越 小 聚 类 效果 越 好 ) 
七 ic 
请 
while ((t<= t_max)) % 进行 t_max 次 迭代 计算 
solution string = zeros(R,N+1); 路 径 标识 字符 : 标识 每 只 蚂蚁 的 路 径 
fori=1:R % 以 信息 素 为 依据 确定 蚂蚁 的 路 径 
r= rand(1,N); % 随 机 产生 值 为 0 一 1 随机 数 的 1 * 51 的 数组 
forg=1:N 


if r(g) <g ”名 如 果 r(g) 小 于 阅 值 
tau max = max(tau(g, :)); 
Cluster number = find(tau(g, :) == tau max); 
多 确定 第 二 只 蚂蚁 对 第 g 个 样本 的 路 径 标识 
solution string(i,g) = Cluster number(1); 
当 如 果 <(g) 大 于 阔 值 , 求 出 各 路 径 信息 素 占 总 信息 素 的 比例 , 按 概率 选择 
路径 
else 

sun p = sun(tau(g,:)); 

p= tau(g,:) /sum p; 

for d= 2:K 

p(w) = p(n) + p(u- 1); 
end 
rr = rand; 


fors= 工 :天 
if (rr <= p(s)) 
Cluster number = s; 
solution string(i,g) = Cluster number; 


break; 
end 
end 
end 
end 
名 计算 聚 类 中 心 
weight = zeros(N,K); 
forh= 1:N 名 给 路 径 做 计算 标识 
Cluster index = solution string(i,h); 名 类 的 索引 编号 
weight(h,Cluster index) = 1; 名 对 样本 选择 的 类 在 weight 数组 的 相应 
名 位 置 标 1 
end 
cluster center = zeros(K,n); 多 聚 类 中 心 ( 聚 类 数 K 个 中 心 ) 
For j= LT:K 
forv= 1:n 
sum_wx = sum(weight(:,j). x*X(:,v)); 各 类 样本 各 属性 值 之 和 
sum w = sum(weight(:,j)); 多 各 类 样本 个 数 
if sum w==0 名 该 类 样本 数 为 0, 则 该 类 的 聚 类 中 心 为 0 
cluster_center(j,v) =0 
continue; 
else 名 该 类 样本 数 不 为 0, 则 聚 类 中 心 的 值 取样 本 属性 值 的 平均 值 
cluster center(j,v) = sum wx/sum w; 
end 
end 
end 
名 计算 各 样本 点 各 属性 到 其 对 应 的 聚 类 中 心 的 均 方差 之 和 , 该 值 存 人 solution_string 的 最 后 一 位 
F= 0; 
forj= 1:K 
for ii = 1:N 
Temp= 0; 
if solution string(i,ii) ==j; 
for w = 1:n 
Temp = ((abs(X(ii,v) - cluster_center(j,v))).^2) + Temp; 
end 
Temp = sqrt(Temp); 
end 
F= (Temp) +F; 
end 
end 


solution string(i,end) = F; 
end 
名 根据 F 值 ,把 solution_string 和 矩阵 升序 排序 
[fitness_ascend, solution index] = sort(solution string(:,end),1); 
solution ascend = [solution string(solution index,1:end—1) fitness ascend]; 
For k= "1:R 
if solution ascend(k,end)<= best solution function value 


best_solution = solution ascend(k, :); 
end 
k= kt+1; 
end 
各 用 最 好 的 工 条 路 径 更 新 信息 素 和 矩阵 
taaF = 0; 
L=2; 
forj= 1:L 
tau F = tau F + solution ascend(j,end); 
end 
fori=1:N 
tau(i,best_ solution(1,i)) = (1 - rho) * tau(i,best solution(1,i)) + 1/ tau FE; 
多 1/tau_F 和 rho/tau 了 效果 都 很 好 
end 
t=t+1; 
end 
time = toc; 
cle 


time 

cluster_center 

best_solution = solution ascend(1,1:end— 1); 

IDY = ctranspose( best_solution) 

best_solution function value = solution ascend(1,end) 

和 分 类 结果 显示 

plot3(cluster_ center(:,1),cluster center(:,2),cluster center(:,3), '0');grid;box 
title(' 蚁 群 聚 类 结果 (R= 100,t= 10000)') 

xlabel( 'X') 

ylabel( 'Y') 

zlabel( '2') 

YY=[1234]; 

indexl find(YY(1) == best_solution) 

index2 = find(YY(2) == best_solution) 

index3 = find(YY(3) == best_solution) 

index4 = find(YY(4) == best_solution) 

line(X(indexl1,1),X(indexl1,2),X(indexl,3), 'linestyle', 'none', 'marker’, ' * ', 'color', 'g'); 
line(X( index2,1),X(index2,2),X( index2,3), 'linestyle', 'none', 'marker',' * ', 'color', 'r'); 
line(X( index3, 1),X(index3,2),X(index3,3), 'linestyle', 'none', 'marker'’, ' + ', 'color', 'b'); 
line(X( index4,1),X(index4,2),X(index4, 3), 'linestyle', 'none', 'marker', 's', 'color', 'b'); 
rotate3d 


程序 运行 完 以 后 , 聚 类 结果 如 图 9-8 所 示 。 从 该 图 中 可 以 看 出 基本 蚁 群 聚 类 法 的 分 类 


效果 不 太 好 。 


程序 运行 结果 : 


t= 

1001 

二 ie = 
23.4018 


别 与 人 工 智 能 (基于 MATLAB) 


sl" EE A 
蚁 群 聚 类 结果 (R=100,t=10000) 


图 9-8 蚁 群 聚 类 结果 


cluster center = 

1.0e+03 * 

1.3710 2.6187 1.8872 

1.3950 2.4997 2.1124 

1.1438 2.6196 2.0613 

1.6024 2.1673 2.0350 
best_solution function value = 

6.3409e+ 04 
indexl = 
3 4 6 14 19 27 34 37 41 44 48 49 Ey 
index2 
2 7 EF 15 23 24 40 43 45 50 58 
index3 
| 8 12 13 17 18 28 29 32 38 39 46 54 


10 11 16 20 21 22 25 26 30 31 33 35 36 


EO 算法 改进 


9.4.1 MMAS 算法 简介 


最 大 -最 小 蚂蚁 系统 (MAX-MIN ant system, MMAS) 是 在 基本 蚂蚁 算法 的 基础 上 提出 
来 的 一 种 改进 的 蚁 群 算法 。MMAS 将 各 条 路 径 上 的 信息 素 初始 值 设 为 最 大 ,并 且 规 定 了 各 
条 路 径 上 的 最 小 信息 素 的 值 ,这 些 都 是 为 了 避免 搜索 过 早 陷入 停止 状态 。 该 算法 的 主要 思 
想 是 : 一 方面 加 强 正 反馈 的 效果 ,提高 蚂蚁 的 搜索 效率 ; 另 一 方面 ,采取 一 定 措施 , 减 小 陷 
入 局 部 优化 的 可 能 性 。 改 进 后 的 算法 流程 如 图 9-9 所 示 。 

在 具体 介绍 该 算法 之 前 ,首先 给 出 几 个 相关 的 定义 。 

定义 1: 所 有 蚂蚁 完成 一 次 搜索 ,被 称 为 一 次 周游 。 

定义 2: 若干 只 蚂蚁 各 自 进行 一 次 搜索 后 ,这 些 搜索 结果 中 最 好 的 一 个 即 为 周游 最 优 
路 线 。 

定义 3; 已 经 完成 的 所 有 搜索 中 ,结果 最 好 的 行进 路 线 即 为 全 局 最 优 路 线 。 

在 蚁 群 系统 中 ,只 更 新 构成 全 局 最 优 路 线 的 边 上 的 信息 素 , 而 在 MMAS 中 ,提出 了 一 
种 新 的 信息 素 更 新 策略 , 即 更 新 周游 最 优 路 线 。 在 搜索 的 初期 ,只 更 新 周游 最 优 路 线 ,然后 ， 
逐渐 提高 全 局 最 优 路 线 的 更 新 频率 ,直至 只 更 新 全 局 最 优 路 线 。 实 验证 明 , 这 种 方法 可 在 一 
定 程度 上 改进 搜索 的 结果 。 

MMAS 算 法 是 在 蚂蚁 系统 算法 基础 上 进行 了 许多 改进 之 后 的 算法 ,主要 表现 在 以 下 三 
个 方面 : 

(1) 在 算法 运行 期 间 更 多 地 利用 最 优 解 信息 , 即 每 次 迭代 后 仅 允 许 一 只 最 优 的 蚂蚁 增 
加 信息 素 , 该 最 优 蚂蚁 可 以 是 当代 最 优 的 :也 可 以 是 全 局 最 优 的 。 

(2) 为 了 尽量 避免 搜索 停止 现象 ,本 算法 对 信息 素 进 行 了 限制 ,这 也 是 将 该 算法 称 为 最 
大 -最 小 蚂蚁 系统 的 原因 。 

(3) 在 开始 搜索 前 ,将 所 有 边 的 信息 素 水 平 设 为 信息 素 最 大 值 , 即 本 算法 将 信息 素 初 始 
化 为 最 大 值 , 这 样 初始 化 有 利于 算法 在 最 初 阶段 搜索 到 更 多 的 解 。 这 样 在 搜索 的 初期 ,蚂蚁 
的 搜索 范围 较 大 ,从 而 减少 了 搜索 停滞 于 局 部 最 优 的 情况 发 生 。 


改进 后 的 算法 如 下 : 
pls = 0.1; s# 局 部 寻 优 阔 值 pls( 相 当 于 变异 率 ) 
solution temp = zeros(L,N+1); 
k=1; 
while(k <= L) 
solution temp(k,:) = solution ascend(k, :); 
rp = rand(1,N); 名 产生 一 个 1x N(51) 维 的 随机 数组 
LA 


if rp(i) <= pls s 某 值 小 于 pls 则 随机 改变 其 对 应 的 路 径 标 识 


设置 初始 参数 R，t_max 
全 1; 初始 化 信息 素 矩阵 


| 根据 信息 素 和 矩阵， 确定 蚂蚁 行走 路 径 ， 并 做 好 标识 


根据 路 径 标识 求 出 每 一 类 的 聚 类 中 心 ;计算 各 样本 到 其 对 应 
的 聚 类 中 心 的 总 的 偏离 误差 F 


1 


根据 F 的 大 小 ， 找 到 此 时 的 最 佳 路 径 


产生 随机 数 ， 根 据 随机 数 的 大 小 对 最 佳 | 


路 径 进行 变异 


| 


计算 新 路 径 下 各 样本 到 其 对 应 的 聚 类 中 心 的 
总 的 偏离 误差 F_temp 


oe F-F_temp ; 新 此 径 为 最 佳 路 径 
N 


9-9 改进 蚁 群 算法 流程 图 


current cluster number = setdiff([1:K],solution temp(k,i)); 
rrr= randint(1,1,[1,K—1]); 

change cluster = current cluster number(rrr); 

solution temp(k,i) = change cluster; 
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9.4.2 完整 程序 及 仿真 结果 
MMAS 算 法 程序 代码 如 下 : 


cles 
Ses 
clear; 
和 xX = 测试 样本 矩阵 
X = load('datal.txt'); 


[N,n] = size(X); %N= 测试 样本 数 ;n = 测试 样本 的 属性 数 

Kd; %K= 组 数 

R = 100; 名 R= 蚂蚁 数 

t_max = 1000; s#t_max= 最 大 和 迭代 次 数 

名 初始 化 

c= 10^-2; 

tau = ones(N,K) * c; 多 信息 素 和 矩阵 ,初始 值 为 0.01 的 N*K 答 阵 (样本 数 * 聚 类 数 ) 
q= 0.9; 外 阔 值 q 

rho = 0.1; 名 蒸发 率 

best_solution function value = inf; % 最 佳 路 径 度 量 值 ( 初 值 为 无 穷 大 , 该 值 越 小 聚 类 效果 越 好 ) 
tic s# 计算 程序 运行 时 间 

t=1; 

while ((t<=t max)) 多 进行 上 max 次 迭代 计算 


多 路径 标识 字符 : 标识 每 只 蚂蚁 的 路 径 


solution string = zeros(R,N+1); 


kori = 1:R 外 以 信息 素 为 依据 确定 蚂蚁 的 路 径 
rz = rand(1,N); 名 随机 产生 值 为 0~1 随机 数 的 1* 51 的 数组 
korig = 1 


if r(g) <q 名 如 果 r(g) 小 于 阅 值 
tau max = max(tau(g, :)); 
多 聚 类 标识 数 ,选择 信息 素 最 多 的 路 径 
Cluster number = find(tau(g, :) == tau max); 
确定 第 二 只 蚂蚁 对 第 g 个 样本 的 路 径 标识 
solution string(i,g) = Cluster number(1); 
如果 r(g) 大 于 阅 值 , 求 出 各 路 径 信息 素 占 总 信息 素 的 比例 , 按 概率 选择 路 径 
else 
sum p = sum(tau(g, :)); 
p = tau(g,:) / sum p; 
foru= 24K 
p(u) = p(u) + p(u-1); 
end 
rr = rand; 
or 
if (rr <= Pay 
Cluster number = s; 
solution string(i,g) = Cluster number; 
break; 
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end 
end 
s# 计算 聚 类 中 心 
weight = zeros(N,K); 
forh= 1:N 外 给 路 径 做 计算 标识 
Cluster index = solution string(i,h); 和 类 的 索引 编号 
weight(h, Cluster index) = 1; 多 对 样本 选择 的 类 在 weight 数组 的 相应 位 置 标 1 
end 
cluster center = zeros(K,n); 名 聚 类 中 心 ( 聚 类 数 K 个 中 心 ) 
forj = 1:K 
forv= 1:n 
sum wx = sum(weight(:,j).*X(:,v)); 名 各 类 样本 各 属性 值 之 和 
sum w = sum(weight(:,j)); 名 各 类 样本 个 数 
if sum w== 多 该 类 样本 数 为 0, 则 该 类 的 聚 类 中 心 为 0 
cluster_center(j,v) =0 
continue; 
else 该 类 样本 数 不 为 0, 则 聚 类 中 心 的 值 取样 本 属性 值 的 平均 值 
cluster center(j,v) = sum wx/sum wj 
end 
end 
end 
计算 各 样本 点 各 属性 到 其 对 应 的 聚 类 中 心 的 均 方差 之 和 , 该 值 邦人 solution_string 的 最 后 一 位 
F= 0; 
Por de Le 
for ii = 1:N 
Temp= 0; 
if solution string(i,ii) ==j; 
forv= 1l:n 
Temp = ((abs(X(ii,v) — cluster_center(j,v))).^2) + Temp; 
end 
Temp = sqrt(Temp); 
end 
F = (Temp)+F; 
end 
end 
solution string(i,end) = F; 


end 

名 根据 F 值 ,把 solution_string 矩阵 升序 排序 

[fitness_ascend, solution index] = sort(solution string(:,end),1); 

solution ascend = [solution string(solution index,1:end— 1) fitness ascend]; 


pls = 0.1; s 局 部 寻 优 阔 值 pls( 相 当 于 变异 率 ) 
2 名 在 工 条 路 径 内 局 部 寻 优 

s# 局 部 寻 优 程序 

solution temp = zeros(L,N+1); 

k = 1; 


while(k <= LI) 
solution temp(k,:) = solution ascend(k, :); 
rp = rand(1,N); 包产 生 一 个 1x*N(51) 维 的 随机 数组 , 某 值 小 于 pls 则 随机 改变 
和 其 对 应 的 路 径 标 识 


for i = 1:H 
if rp(i) <= pls 
current cluster number = setdiff([1:K], solution temp(k,i)); 


rrr= randint(1,1,[1,K-—1]); 
change cluster = current cluster number(rrr); 
solution temp(k,i) = change cluster; 
end 
end 
名 计算 临时 聚 类 中 心 
solution temp weight = zeros(N,K); 
forh = 1:N 
solution temp cluster index = solution temp(k,h); 
solution temp weight(h, solution temp cluster index) = 1; 


end 
solution temp cluster center = zeros(K,n); 
forj= 1:K 


forv = 1:n 

solution temp sum wx = sum(solution temp weight(:,j). *X(:,v)); 
sum( solution temp weight(:,j)); 
0 


solution temp cluster center(j,v) =0; 


solution temp sum w 


if solution temp sum Ww 


cont inue; 
else 
solution temp_cluster center(j,v) = solution_ temp_sum_wx/ 
solution temp_sum w; 
end 


end 
end 
名 计算 各 样本 点 各 属性 到 其 对 应 的 临时 聚 类 中 心 的 均 方差 之 和 Ft 
solution temp F = 0; 
for j= 1:K 
for ii = 1:N 
st Temp=0; 
if solution temp(k,ii)==j; 
forv = 1:n 
st_Temp = ((abs(X(ii,v) - solution temp_cluster_ center(j, 
vV))).^2) + st_Temp; 
end 
st Temp = sqrt(st Temp); 
end 
solution temp F = (st Temp) + solution temp F; 
end 
end 
solution temp(k,end) = solution temp F; 
根据 临时 聚 类 度量 调整 路 径 
多 如 果 Ft<Fl, 则 Fl=Ft,Sl= St 
if solution temp(k,end) <= solution ascend(k,end) 
solution ascend(k,:) = solution temp(k, :); 
end 
if solution ascend(k,end)<= best solution function value 
best solution = solution ascend(k, :); 
end 
k= k+l; 


end 
当 用 最 好 的 工 条 路 径 更 新 信息 素 和 矩阵 
taaF = 07 
forj = 1:E 


tau F = tau F + solution ascend(j,end); 
end 
6 
tau(i, best_solution(1,i)) = (1 - rho) x tau(i,best solution(1,i)) + 1/ tau F; 
和 1/tau F 和 rho/tau F 效果 都 很 好 
end 
二 直 共 二 业 
best_solution _ function _ value = solution ascend(1, end); 
best_solution function value 
end 
time = toc; 输出 程序 运行 时 间 


clc 


time 

cluster center 

best_solution = solution ascend(1,1:end— 1); 

IDY = ctranspose(best_ solution) 

best_solution function value = solution ascend(1,end) 

名 分 类 结果 显示 

plot3(cluster center(:,1),cluster center(:,2),cluster center(:,3),'0');grid;box 
title(' 蚁 群 聚 类 结果 (R= 100,t = 10000)') 

xlabel('X') 

ylabel( 'Y') 

zlabel( 'Z') 

Y= T1234]; 

indexl = find(YY(1) == best_solution) 

index2 find(YY(2) == best_solution) 

index3 find(YY(3) == best_solution) 

index4 = find(YY(4) == best_solution) 

line(X(index]1,1),X(index1,2), X( indexl1, 3), 'linestyle', 'none', 'marker', ' * ', 'color', 'g'); 
line(X(index2,1),X(index2,2), X( index2,3), 'linestyle', 'none', 'marker', ' * ', 'color', 'r'); 
line(X(index3,1),X(index3,2), X( index3,3), 'linestyle', 'none', 'marker'’, ' + ', 'color', 'b'); 
line(X(index4,1),X(index4,2), X( index4, 3), 'linestyle', 'none', 'marker', 's', 'color', 'b'); 
rotate3d 


程序 运行 完 后 ,仿真 结果 如 图 9-10 所 示 。 从 图 中 可 以 看 出 MMAS 聚 类 效果 比 基 本 蚁 
群 聚 类 效果 要 好 ,但 分 类 效果 还 不 是 太 好 ,说 明 该 三 元 色 不 适合 使 用 该 算法 分 类 。 
程序 运行 结果 如 下 : 


t= 
1001 

tinme = 

84.9270 

cluster center = 
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文 作 站 ” 己 蝇 (日 、 焉 看 (V) 插入 中 工具 (点 面 (D) 密 口 (W) 碟 助 (H) 
B= EA 


蚁 群 聚 类 结果 (R=100,t=10000) 


图 9-10 MMAS 聚 类 结果 

1.0e+03 * 

1.9095 2.3453 1.6705 

0.4709 3.1052 2.2664 

L7053 2.0221 2.1305 

1.6203 251557 2.0522 
best_solution function value = 

4.1595e+ 04 

indexl = 
1 一 15 列 


取信 I 9 20 33 96 3 
45 

16 列 

47 

index2 = 

1 一 15 列 

20 se qo 8 
46 


16 一 18 列 

48 49 55 

index3 = 

1 16 二 18 20 37 40 42 50 52 56 58 
index4 = 


43 


44 
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 ) 


改进 基本 蚁 群 算法 之 后 缩短 了 和 迭代 次 数 ,减少 了 计算 量 , 聚 类 效果 要 好 于 基本 蚁 群 算 
法 。 但 是 ,从 整体 上 来 说 两 种 算法 的 聚 类 效果 都 不 太 好 ,说 明 该 算法 不 适合 于 酒 瓶 的 分 类 ， 
体现 了 蚁 群 算法 的 局 限 性 。 蚁 群 算法 虽 被 成 功 应 用 到 了 旅行 商 问题 上 ,但 大 家 以 后 在 应 用 
该 算法 时 ,还 是 应 该 根据 具体 的 问题 来 定 。 


(1) 简 述 蚁 群 算法 的 基本 原理 。 
(2) 简 述 蚁 群 算法 的 特点 。 
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袜子 群 算法 育 类 设计 


粒子 群 算法 (particle swarm optimization ,PSO) 是 1995 年 由 美国 社会 心理 学 家 James 
Kennedy 和 电气 工程 师 Russell Eberhart 在 鸟 群 , 鱼 群 和 人 类 社会 的 行为 规律 的 启发 下 提 
出 的 一 种 基于 群 智能 的 演化 计算 技术 。 由 于 算法 收敛 速度 快 ,需要 设置 调整 的 参数 少 , 实 
现 简 洁 , 近 年 来 受到 学 术 界 的 广泛 重视 。 


粒子 群 算法 简介 


粒子 群 算法 (PSO) 是 继 蚁 群 算法 之 后 的 又 一 种 新 的 群体 智能 算法 ,目前 已 成 为 进化 算 
法 的 一 个 重要 分 支 。 粒 子 群 算法 的 基本 思想 是 模拟 鸟 类 群体 行为 ,并 利用 了 生物 学 的 生物 
群体 模型 。 该 模型 中 描述 了 乌 类 生活 中 使 用 了 简单 的 规则 来 确定 自己 的 飞行 方向 和 飞行 速 
度 ,并且 成 功 地 寻找 到 栖息 地 。 这 些 规则 表述 为 : DO 飞 离 最 近 的 个 体 ; @ 飞 向 目标 ; @@ 飞 向 
群体 的 中 心 。Heppner 受 鸟 类 的 群体 智能 启发 ,建立 了 该 模型 。Eberhart 和 Kennedy 对 
Heppner 的 模型 进行 了 修正 ,同时 引入 了 人 类 的 个 体 学 习 和 整体 文化 形成 的 模式 ,一 方面 个 
体 向 周围 的 优秀 者 的 行为 学 习 , 另 一 方面 个 体 不 断 总 结 自己 的 经 验 形成 自己 的 知识 库 , 从 而 
提出 了 粒子 群 算法 。 该 算法 由 于 运算 速度 快 、 局 部 搜索 能 力 强 、 参 数 设 置 简单 , 受 学 术 界 的 
广泛 重视 ,现在 粒子 群 算法 在 函数 优化 、 神 经 网 络 训练 、 模 式 分 类 、 模 糊 系统 控制 以 及 其 他 工 
程 领 域 都 得 到 了 广泛 应 用 。 


经 典 的 粒子 群 算法 的 运算 过 程 


经 典 粒 子 群 算法 和 其 他 的 进化 算法 相似 ,也 采用 “群体 ”与 “进化 ”的 概念 ,同样 是 根据 个 
体 即 微粒 (particle) 的 适应 度 大 小 进行 操作 。 所 不 同 的 是 ,微粒 群 算法 不 像 其 他 进化 算法 那 
样 对 个 体 使 用 进化 算 子 .而 是 将 每 个 个 体 看 作 是 在 N 维 搜索 空间 中 的 一 个 无 重量 无 体积 的 
微粒 ,并 在 搜索 空间 中 以 一 定 的 速度 飞行 。 该 飞行 速度 根据 个 体 的 飞行 经 验 和 群体 的 飞行 


经 验 来 进行 动态 调整 。 

Kennedy 和 Eberhart 最 早 提出 的 PSO 算法 进化 方程 为 

大 人 十 1) = v0 to re (plt)— ralt) te ree (pat) — zy(t)) (10-1) 
zy(t+1) 一 世人 四 十 本 (十 1) (10-2) 

其 中 ,i 表示 第 i 个 微粒 ,i 表示 的 是 微粒 i 的 第 j 维 分 量 ,t 表示 第 t 代 , 学 习 因 子 ct 和 cs 为 
非 负 常 数 ,ci 用 来 调节 微粒 向 本 身 最 好 位 置 飞行 的 步 长 ,cs 用 来 调节 微粒 向 群体 最 好 位 置 
飞行 的 步 长 ,通常 ct 和 cs 在 [0,2] 取 值 。 

迭代 终止 条 件 根据 具体 问题 一 般 选 为 最 大 迭代 次 数 或 粒子 群 搜索 到 的 最 优 位 置 满足 于 
预先 设 定 的 精度 。 

经 典 微粒 群 算法 的 流程 如 下 : 

(1) 依照 如 下 步骤 初始 化 ,对 微粒 群 的 随机 位 置 和 速度 进行 初始 设 定 。 

@ 设 定 和 群体 规模 , 即 粒子 数 为 N。 

@ 对 任意 i,j, 随 机 产生 x ,vs 。 

@ 对 任意 i 初始 化 局 部 最 优 位 置 为 pi; 二 x;。 

@ 初始 化 全 局 最 优 位 置 ps。 

(2) 根据 目标 函数 ,计算 每 个 微粒 的 适应 度 值 。 

(3) 对 于 每 个 微粒 ,将 其 适应 度 值 与 其 本 身 所 经 历 过 的 最 好 位 置 p; 的 适应 度 值 进 行 比 
较 , 如 更 好 , 则 将 现在 的 z; 位 置 作为 新 的 p;。 

(4) 对 每 个 微粒 ,将 其 经 过 的 最 好 位 置 的 p; 适应 度 值 与 群体 的 最 好 位 置 的 适应 度 值 比 
较 , 如 果 更 好 , 则 将 户 的 位 置 作为 新 的 p。。 

(5) 对 微粒 的 速度 和 位 置 进行 更 替 。 

如 未 达到 终止 条 件 , 则 返回 (2) 。 


两 种 基本 的 进化 模型 


Kennedy 等 在 对 鸟 群 殉 食 的 观察 过 程 中 发 现 ,每 只 鸟 并 不 总 是 能 看 到 鸟 群 中 其 他 所 有 
鸟 的 位 置 和 运动 方向 ,而 往往 只 是 看 到 相 邻 的 鸟 的 位 置 和 运动 方向 。 因 此 提出 了 两 种 粒子 
群 算法 模型 : 全 局 模型 (global version PSO) 和 局 部 模型 (local version PSO) 。 

在 基本 的 PSO 算法 中 ,根据 直接 相互 作用 的 微粒 群 定 义 可 构造 PSO 算法 的 两 种 不 同 
版 本 ,也 就 是 说 ,可 以 通过 定义 全 局 最 好 微粒 (位 置 ) 或 局 部 最 好 微粒 (位 置 ) 构 造 具有 不 同行 
为 的 PSO 算法 。 


1. Gat 模型 (全 局 最 好 模型 ) 


Ge 模型 以 牺牲 算法 的 健壮 性 为 代价 提高 算法 的 收敛 速 度 ,基本 PSO 算法 就 是 该 模型 
的 典型 体现 。 在 该 模型 中 ,整个 算法 以 该 微粒 (全 局 最 好 的 微粒 ) 为 吸引 子 ,将 所 有 微粒 拉 向 
它 ,使 所 有 的 微粒 最 终 收 敛 于 该 位 置 。 如 果 在 进化 过 程 中 ,该 全 局 最 优 解 得 不 到 更 新 , 则 微 
粒 群 将 出 现 类 似 于 遗传 算法 早熟 的 现象 。 


2. Le 模型 (局 部 最 好 模型 ) 


为 了 防止 Cus 模 型 可 能 出 现 早 熟 现象 ,Lvs 模 型 采用 多 个 吸引 子 代替 Gus 模 型 中 的 单 
一 吸引 子 。 首 先 将 为 粒子 群 分 解 为 若干 个 子 群 ,在 每 个 粒子 群 中 保留 其 局 部 最 好 微粒 
pi(t) , 称 为 局 部 最 好 的 位 置 或 邻 域 最 好 位 置 。 

实验 表明 ,局 部 最 好 模型 的 PSO 比 全 局 最 好 模型 的 收敛 慢 , 但 不 容易 陷入 局 部 最 优 解 。 


改进 的 粒子 群 优化 算法 


10.4.1 粒子 群 优化 算法 原理 


最 初 的 PSO 是 从 解决 连续 优化 问题 发 展 起 来 的 ,Eberhart 等 又 提出 了 PSO 的 二 进 制 
版 本 ,来 解决 工程 实际 中 的 优化 问题 。 

粒子 群 算法 是 一 种 局 部 搜索 效率 高 的 搜索 算法 ,收敛 快 ,特别 是 在 算法 的 早期 ,但 也 存 
在 着 精度 较 低 、 易 发 散 等 缺点 。 若 加 速 系 数 、 最 大 速度 等 参数 太 大 ,粒子 群 可 能 错过 最 优 解 ， 
算法 不 能 收敛 ; 而 在 收敛 的 情况 下 ,由 于 所 有 的 粒子 都 同时 向 最 优 解 的 方向 飞 去 ,所 以 粒子 
趋向 同一 化 (失去 了 多 样 性 ) ,这 样 就 使 得 算法 容易 陷入 局 部 最 优 解 , 即 算法 收敛 到 一 定 精度 
时 ,无 法 继续 优化 ,因此 很 多 学 者 都 致力 于 提高 PSO 算法 的 性 能 。 

Y. Shi 和 Eberhart 在 1998 年 对 微粒 群 算法 引入 了 惯性 权重 ww(z) ,并 提出 了 在 进化 过 
程 中 线性 调整 惯性 权重 的 方法 ,来 平衡 全 局 和 局 部 搜索 的 性 能 ,该 方程 已 被 学 者 们 称 为 标准 
PSO 算法 。 

粒子 群 优化 算法 具有 进化 计算 和 群 智能 特点 。 与 其 他 进化 算法 相 类 似 ,粒子 群 算法 也 
是 通过 个 体 间 的 协作 与 竞争 ,实现 复杂 空间 中 最 优 解 的 搜索 。 

粒子 群 优化 算法 中 ,每 一 个 优化 问题 的 解 可 看 做 是 搜索 空间 中 的 一 只 鸟 , 即 “ 粒 子 ”。 首 
先生 成 初始 种 群 , 即 在 可 行 解 空间 中 随机 初始 化 一 群 粒子 ,每 个 粒子 都 为 优化 问题 的 一 个 可 
行 解 ,并 由 目标 函数 为 之 确定 一 个 适应 度 值 。 每 个 粒子 都 将 在 解 空间 中 运动 ,并 由 运动 速度 
决定 其 飞行 方向 和 距离 。 通 常 粒 子 将 追随 当前 的 最 优 粒 子 在 解 空间 中 搜索 。 在 每 一 次 迭代 
中 ,粒子 将 跟踪 两 个 “ 极 值 " 来 更 新 自己 ,一 个 是 粒子 本 身 找到 的 最 优 解 , 另 一 个 是 整个 种 群 
目前 找到 的 最 优 解 ,这 个 极 值 即 全 局 极 值 。 

粒子 群 算法 可 描述 为 : 设 粒 子 群 在 一 个 n 维 空间 中 搜索 ,由 m 个 粒子 组 成 种 群 Z = 
{21,2s，…,Zm} ,其 中 的 每 个 粒子 所 处 的 位 置 Zi; 二 {za ,za，… ,zm) 都 表示 问题 的 一 个 解 , 粒 
子 通 过 不 断 调 整 自己 的 位 置 Z; 来 搜索 新 解 。 每 个 粒子 都 能 记 住 自己 搜索 到 的 最 好 解 , 记 作 
pa' 以 及 整个 粒子 群 经 历 过 的 最 好 的 位 置 . 即 目前 搜索 到 的 最 优 解 , 记 作 pss。 此 外 每 个 粒 
子 都 有 一 个 速度 , 记 作 Vi 二 {va ,vs，… ,vs)。 当 两 个 最 优 解 都 找到 后 ,每 个 粒子 根据 式 (10-3) 
来 更 新 自己 的 速度 。 

va(t+1) = wva(d)) + mrn(pa— za(t)) + mr(pa— za(t)) (10-3) 
za(t 二 1) 二 za(t) 十 va(t 十 1) (10-4) 


模式 识别 与 人 工 智能 (基于 MATLAB) 


式 中 ,va(t 十 1) 表 示 第 i 个 粒子 在 t 十 1 次 迭代 中 第 d 维 上 的 速度 ,w 为 惯性 权重 ,wh 、w 为 加 
速 常 数 ,n rz 为 0 一 1 的 随机 数 。 此 外 ,为 使 粒子 速度 不 致 过 大 ,可 以 设置 速度 上 限 vmx, 当 
式 (10-1) 中 va(t 十 1) 这 vmax 时 ,via(t 十 1) 二 Vmax; via(t 十 1) 过 一 Vmax 时 ,va(t 十 1) 二 一 Vmax。 

从 式 (10-3) 和 式 (10-4) 可 以 看 出 ,粒子 的 移动 方向 由 三 部 分 决定 : 自己 原 有 的 速度 
ad(t)、 与 自己 最 佳 经 历 的 距离 pa 一 za(t)、 与 群体 最 佳 经 历 的 距离 pm 一 =a(t) ,并 分 别 由 权 
重 系数 ,nn 、 加 决定 其 重要 性 。 

下 面 介绍 这 些 参 数 的 设置 。PSO 算法 中 需要 调节 的 参数 主要 包括 : 

1) 加 速度 因子 hn 、w, 即 学 习 因 子 

学 习 因 子 ( 也 称 加 速度 系数 )n 各 分 别 调节 粒子 向 全 局 最 优 粒子 和 个 体 最 优 粒子 方 
向 飞行 的 最 大 步 长 。 若 太 小 , 则 粒子 可 能 远离 目标 区 域 ; 若 太 大 则 可 能 导致 粒子 忽然 向 目 
标 区 域 飞 去 或 飞 过 目标 区 域 。 合 适 的 六 和 yp 可 以 加 快 收敛 且 不 易 陷 入 局 部 最 优 ,目前 大 
多 数 文献 均 采用 加 一 加 一 2。 

2) 种 群 规模 N 

PSO 算法 种 群 规模 较 小 ,一 般 令 N=20~40。 其 实 对 于 大 部 分 问题 取 10 个 粒子 就 能 
得 到 很 好 的 结果 ,但 对 于 较 难 或 者 特定 类 别 的 问题 ,粒子 数 可 能 取 到 100 或 200。 

3) 适应 度 函 数 

F= Dw DCXs — Cop) (10-5) 


j=1 


其 中 ,ws 是 0,1 矩阵 , 当 xz 属 于 该 类 时 元 素 为 0, 否 则 为 1。 
4) 惯性 权重 系数 忆 


(10-6) 


A 
惯性 权重 系数 w 用 来 控制 前 面 的 速度 对 当前 速度 的 影响 , 较 大 的 ww 可 以 加 强 PSO 的 


全 局 搜索 能 力 ,而 较 小 的 能 加 强 局 部 搜索 能 力 。 目 前 普遍 采用 将 名 设 置 为 从 0.9 到 0. 1 线 
性 下 降 的 方法 ,这 种 方法 可 使 得 PSO 在 开始 时 探索 较 大 的 区 域 , 较 快 地 定位 最 优 解 的 大 致 
位 置 , 随 着 w 逐渐 减 小 ,粒子 速度 减 慢 , 开 始 精 细 局 部 搜索 。 


10.4.2 粒子 群 优化 算法 的 基本 流程 


粒子 群 算法 的 基本 流程 如 图 10-1 所 示 。 

粒子 群 算法 的 基本 步骤 如 下 : 

(1) 初始 化 粒子 群 , 即 随机 设 定 各 粒子 的 初始 位 置 和 初始 速度 V。 

(2) 根据 初始 位 置 和 速度 产生 各 粒子 新 的 位 置 。 

(3) 计算 每 个 粒子 的 适应 度 值 。 

(4) 对 于 每 个 粒子 ,比较 它 的 适应 度 值 和 它 经 历 过 的 最 优 位 置 pa 的 适应 度 值 ,如 果 更 
好 则 更 新 。 

(5) 对 于 每 个 粒子 ,比较 它 的 适应 度 值 和 群体 所 经 历 的 最 优 位 置 pw 的 适应 度 值 ,如 果 
更 好 则 更 新 pa。 

(6) 根据 式 (10-3) 和 式 (10-4) 调 整 粒子 的 速度 和 位 置 。 
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初始 化 粒子 群 


> 


计算 每 个 粒子 的 适应 度 值 | 


更 新 粒子 的 个 体 最 优 位 置 和 全 局 最 优 位 置 


根据 式 (10-3) 和 式 (10-4) 更 新 粒子 速度 和 位 置 


1 


满足 终止 条 件 ? 


输出 全 局 最 优 位 置 


10-1 粒子 群 算法 流程 图 


(7) 如 果 达 到 终止 条 件 (足够 好 的 位 置 或 最 大 迭代 次 数 ), 则 结束 ,否则 转 步 又 (3) 继 续 
迭代 。 


粒子 群 算法 与 其 他 算法 的 比较 


1. 相同 点 


粒子 群 算法 与 其 他 进化 算法 (如 遗传 算法 和 蚁 群 算法 ) 有 许多 相似 之 处 : 

(1) 粒子 群 算法 和 其 他 进化 算法 都 基于 “种 群 ”概念 ,用 于 表示 一 组 解 空 间 中 的 个 体 集 
合 。 它 们 都 随机 初始 化 种 群 , 使 用 适应 度 值 来 评价 个 体 ,而 且 都 根据 适应 度 值 来 进行 一 定 的 
随机 搜索 ， 并 且 不 能 保证 一 定 能 找到 最 优 解 。 

(2) 种 群 进化 过 程 采 用 子 代 与 父 代 竞争 机 制 , 若 子 代 具 有 更 好 的 适应 度 值 , 则 子 代 将 替 
换 父 代 ,因此 都 具有 一 定 的 选择 性 。 

(3) 算法 都 具有 并 行 性 , 即 搜索 过 程 是 从 一 个 解 集合 开始 的 ,而 不 是 从 单个 个 体 开始 
的 ,不 容易 陷入 局 部 极 小 值 。 并 且 这 种 并 行 性 易于 在 并 行 计算 机 上 实现 ,从 而 提高 算法 的 性 
能 和 效率 。 


2. 不 同 点 


粒子 群 算法 与 其 他 进化 算法 的 区 别 : 

(1) 粒子 群 算法 在 进化 过 程 中 同时 记忆 位 置 和 速度 信息 ,而 遗传 算法 和 蚁 群 算法 通常 
只 记忆 位 置信 息 。 

(2) 粒子 群 算法 的 信息 通信 机 制 与 其 他 进化 算法 不 同 。 遗 传 算法 中 染色 体 间 通 过 交叉 
等 操作 进行 通信 , 蚁 群 算法 中 每 只 蚂蚁 以 蚁 群 全 体 构成 的 信息 素 轨迹 作为 通信 机 制 ,因此 整 


个 种 群 比较 均匀 地 向 最 优 区 域 移动 。 在 全 局 模式 的 粒子 群 算法 中 ,只 有 全 局 最 优 粒 子 提供 
信息 给 其 他 的 粒子 ,整个 搜索 更 新 过 程 是 跟随 当前 最 优 解 的 过 程 ,因此 所 有 的 粒子 很 可 能 更 
快 地 收敛 于 最 优 解 。 


粒子 群 算法 分 类 器 的 MATLAB 实现 


本 例 采 用 表 1-2 中 的 三 元 色 数 据 , 按 照 颜色 数据 所 表征 的 特点 ,将 数据 按照 各 自 所 属 的 
类 别 归 类 。 

由 于 粒子 群 优化 算法 是 迭代 求 取 最 优 值 ,所 以 事先 无 须 训 练 数 据 , 故 取 后 30 组 数据 确 
定 类 别 。 下 面 使 用 MATLAB 构建 粒子 群 优 化 算法 。 


10.6.1 设 定 参 数 
PSO 优化 算法 需要 设 定 粒子 的 学 习 因子 (速度 更 新 参数 )`. 最 大 迁 代 次 数 以 及 惯性 权重 


初始 和 终止 值 及 聚 类 类 数 。 
参数 设 定 程序 代码 如 下 : 
cl=1.6;c2=1.6; 名 设 定 学 习 因 子 值 ( 速 度 更 新 参数 ) 
wmax = 0.9;wmin= 0.4; 多 设 定 惯性 权重 初始 及 终止 值 
M= 1800; 名 最 大 迭代 数 
Ke 名 类 别 数 
10.6.2 初始 化 
算法 还 需 将 粒子 的 位 置 、 速 度 和 其 他 一 些 变量 进行 初始 化 。 
初始 化 程序 代码 如 下 : 
fitt = infx ones(1,N); 名 初始 化 个 体 最 优 适应 度 
fg= inf; 当初 始 化 群体 最 优 适应 度 
fl1jg= clmat(1, :); s% 当前 最 优 分 类 
v= rand(N,K x D); 名 初 始 速 度 
x= zeros(N, Kx D); 名 初始 化 粒子 群 位 置 
Y=x; 名 初 始 化 个 体 最 优 解 
pg= x(1,:); 名 初始 化 群体 最 优 解 
cen= zeros(K,D); 和 类别 中 心 定 维 
fitt2 = fitt; 名 粒子 适应 度 定 维 


10.6.3 完整 程序 及 仿真 结果 


粒子 群 优化 算法 的 完整 MATLAB 程序 代码 如 下 : 
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Cles 

clear all; 

format long; 

tic 

data= [1702.8 1639.79 2068.74 
1877.93 1860.96 1975: 训 
867.81 2334.68 2535.1 
1831.49 Ts 1604.68 
460.69 3274.77 2172.99 
2374.98 3346.98 975,31 
2271.89 3482.97 946.7 
1783.64 1597:99 2261.31 
198.83 3250.45 2445.08 
1494.63 2072.59 2550.51 
1597.03 1921.52 2126.76 
1598.93 1921.08 1623.33 
1243.13 1814.07 3441.07 
2336.31 2640.26 1599.63 
354 3300.12 2373.61 
2144.47 2501.62 591.51 
426.31 3105.29 2057.8 
1507.13 1556.89 1954.51 
343.07 3271.72 2036.94 
2201.94 3196.22 935.53 
2232. 43 3077.87 1298.87 
1580.1 1752.07 2463.04 
1962.4 1594.97 1835.95 
1495.18 1957.44 3498.02 
1125.17 1594.39 2937.73 
24.22 3447.31 2145.01 
1269.07 1910.72 2701.97 
1802.07 1725.81 1966.35 


1817.36 1926.4 2328.79 
1860.45 1782.88 1875.13]; 
本 大 多 役 定 2 
N=70; 名 粒子 数 
名 设 定 学 习 因 子 值 (速度 更 新 参数 ) 
名 设 定 惯性 权重 初始 及 终止 值 
名 最 大 迄 代 数 
名 类 别 数 
名 样本 数 和 特征 维 数 
clmat(i, :) = randperm( S); 名 随机 取 整 数 
end 
clmat(clmat >K) = fix(rand x K+1); 多 有 取 整 函数 
fitt = inf x ones(1,N); 名 初始 化 个 体 最 优 适 应 度 
fg= inf; 名 初始 化 群体 最 优 适 应 度 
fl1jg= clmat(1, :); 当前 最 优 分 类 


v= rand(N, Kx* D); 名 初始 速度 


x= zeros(N, Kx D); 外 初始 化 粒子 群 位 置 
y=x; 名 初始 化 个 体 最 优 解 
pg= x(1,:); 当初 始 化 群体 最 优 解 
cen = zeros(K,D) 名 类 别 中 心 定 维 
fitt2= fitt; 名 粒子 适应 度 定 维 
各- 循环 优化 开始 一 
for t=1:M 
for i=1:N 
Ww = Zeros(S,K); 多 外 产生 零 矩 阵 
for ii = 1:S 
ww(ii,clmat(i,ii)) = 1; 多 加 权 和 矩阵 , 元素 非 0 即 1 
end 
ccc=[];tmp=0; 
forj= 1:K 
sumcs = sum(ww(:,j)* ones(1,D). * data); 
countcs = sum(ww(:,j)); 
if countcs == 0 
cen(j, :) = zeros(1,D); 
else 
cen(j,:) = sumcs/countcs; 多 求 类 别 中 心 
end 
ccc = [ccc,cen(j,:)]; 多 串联 聚 类 中 心 
aa= find(ww(:,j)==1); 
if length(aa)~ =0 
for k=1:length(aa) 
tmp = tmp+ (sum((data(aa(k), :) -cen(j,:)).^2)); %g% 适 应 度 计算 
end 
end 
end 
x(1i,:)= ecc; 
fitt2(i) = tmp; 多 多 适应 度 值 Fitness value 
end 
更 新 群体 和 个 体 最 优 解 
for i=1:N 


if fitt2(i)<fitt(i) 
fitt(i) = fitt2(i); 
yb) =x(i,:); 
if fitt2(i)<fg 
pg= x(i,:); 
fg= fitt2(i); 
fl1jg = clmat(i, :); 
end 

end 

end 
bfit(t) = fg; 


WwW = wmax — tx (wmax— wmin)/M; 
for Tel 


当 更 新 粒子 速度 和 位 置 


名 个 体 最 优 


群体 最 优 
群体 最 优 适 应 度 
s# 当前 最 优 聚 类 


最 优 适应 度 记录 
名 更 新 权重 ,线性 递减 权重 法 的 粒子 群 算法 


Vi:) =wxv(i,:) +cl x rand(1,KxD). * (y(i,:) —x(i,: 


x(iy:) =x(i,:) tv(i, :); 


fork=1:K 
cen(k, :) =x((k—1)x*xD+1:kxD); 
end 
多重 新 归 类 
for j= 1:S 
tmpl = zeros(1, K); 
fork=1:K 
tmpl(k) = sum( (data(j, :) — cen(k,: 
end 
[tmp2 clmat(i,j)] = min(tmp1); 
end 
end 
end 
* 一- 一- 循环 结束 ------------ 
M 
fljg 
fg 
figure(1) 
plot(bfit); 


xlabel( ' 种 群 迭 代 次 数 '); 
ylabel( ' 适 应 度 '); 
title(' 适 应 度 曲 线 '); 
Cen 

toc 


仿真 适应 度 曲 线 如 图 10-2 所 示 。 


口 已 日 鸟 | R&ADDRN-|G Oa 


)) +c2x rand(1,Kx*D). * (pg— x(i,:)); 


外 拆 分 粒子 位 置 ,获得 和 个 中 心 


)).“2); 每 个 样本 关于 各 类 的 距离 
名 最 近 距 离 归 类 


多 迭代 次 数 
s# 最 优 聚 类 输出 
# 最 优 适应 度 输出 


外 绘制 最 优 适 应 度 轨迹 


名 聚 类 中 心 


文件 (F) 蝙 名 (查看 (V) 插入 由 工具 (T) 桌面 (D) 窗口 W) 帮助 (H) 


7 
35 10 适应 度 曲 线 


| 


图 10-2 PSO 算法 适应 度 曲线 


600 800 1000 1200 1400 1600 
种 群 选 代 次 数 


W386)、 模式 识别 与 人 工 智能 (基于 MATLAB) 


PSO 算法 仿真 适应 度 准确 值 为 : 适应 度 一 5.07E 十 06。 


对 预测 样本 值 的 仿真 输出 结果 如 下 : 


Fljg( 最 优 聚 类 输出 ) = 
1 一 16 列 
A 0 + 9 0 Ee 
3 4 3 
17 一 30 列 
4 2 4 这 村 2 2 1 下 4 2 2 
Fg( 最 优 适应 度 值 ) = 
5. 074427169449084e+ 06 
Cen( 数 据 聚 类 中 心 ) = 
1.0e+ 03 * 
1. 583318501485389 ”1. 635223368390102 2.714581718419658 
2.181834667703786 1.404155371279036 2,423318117482111 
2.998901968724054 2.358864196437189 2.063591486634854 
3. 502722145507502 2.296065717941481 1.666953189720583 
调整 显示 方式 后 ,PSO 算法 聚 类 结果 与 标准 结果 对 比如 表 10-1 所 示 。 
表 10-1 PSO 聚 类 结果 与 标准 结果 对 比 
A B C 标准 类 别 PSO 分 类 
1702.8 1639. 79 3 3 
3 3 
4 
3 
2 
1 
1 
3 
2 
4 
答 
1623. 33 3 
3441. 07 4 
1599. 63 1 
2373. 61 2 2 
591. 51 1 1 
2057.8 2 2 
1954. 51 3 3 
2036. 94 2 2 
935. 53 1 
2232. 43 3077. 87 1298. 87 i 1 
1580. 1 463. 04 3 3 
1962.4 1594. 97 3 3 


第 10 章 玉 子 群 算法 聚 类 设计 


续 表 
A B C 标准 类 别 PSO 分 类 
1495. 18 1957.44 3498. 02 4 4 
1125.17 1594. 39 2937.73 4 4 
24.22 3447. 31 2145. 01 2 2 
1269. 07 1910. 72 2701. 97 4 4 
1802.07 1725. 81 1966. 35 3 3 
1817. 36 1927.4 2328. 79 3 3 
1860. 45 1782. 88 1875. 13 3 3 


| 10.7 大 


通过 粒子 群 算法 能 够 很 快 实现 分 类 ,而 且 通 过 惯性 权重 系数 的 线性 更 新 ,可 以 防止 局 部 
最 优 和 输出。 虽然 运行 时 间 稍 有 增加 ,但 效果 明显 。 每 种 聚 类 数目 下 的 最 优 聚 类 可 以 根据 输 
出 的 适应 度 fg 来 判断 ,适应 度 值 越 小 越 好 ,并 且 需 多 次 运行 判断 。 


(1) 什么 是 粒子 群 算法 ? 


(2) 简 述 粒子 群 优化 算法 的 原理 。 


(3) 简 述 粒子 群 算法 流程 。 
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